Skip to main content

2023 | Buch

Mathematische Einführung in Data Science

insite
SUCHEN

Über dieses Buch

Dieses Lehrbuch richtet sich an Studierende der Mathematik ab dem dritten Studienjahr. Basierend auf den mathematischen Grundvorlesungen werden kanonische Themen aus den Bereichen Data Science und Machine Learning durchgenommen. Dabei stehen rigorose Beweise und ein systematisches Verständnis der zugrundeliegenden Ideen im Vordergrund.

Der Text wird abgerundet durch 121 unterrichtserprobte Aufgaben. Behandelte Themen sind u.a. k-nächste Nachbarn, lineare und logistische Regression, Clustering, bestpassende Unterräume, Hauptkomponentenanalyse, Dimensionalitätsreduktion, kollaboratives Filtern, Perzeptron, Support-Vector-Maschinen und neuronale Netze.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Was ist Data (Science)?
Zusammenfassung
Wir definieren die für das ganze Buch grundlegenden Begriffe der gelabelten und der ungelabelten Datenmenge. Im gelabelten Fall unterscheiden wir zwischen kategoriellen und kontinuierlichen Labeln. Als Beispiele besprechen wir u.a. Tabellen mit Klausurergebnissen, handgeschriebene Buchstaben, Größenverteilungen, soziale Netzwerke, Filmbewertungen und digitale Bilder. Wir skizzieren, welche Fragestellungen in Bezug auf Datenmengen wir in den nachfolgenden Kapiteln bearbeiten werden.
Sven-Ake Wegner
Kapitel 2. Affin-lineare, polynomiale und logistische Regression
Zusammenfassung
Die klassischen Methoden der einfachen, der multivariablen und der multivariaten (affin-)linearen Regression, der polynomialen Regression und der logistischen Regression werden detailliert diskutiert. Im Fall der affin-linearen Regression betrachten wir die Methode der kleinsten Quadrate zuerst aus einer Optimierungsperspektive. Dann nehmen wir eine probabilistische Sichtweise ein und zeigen, dass der affin-lineare Regressor auch eine natürliche Likelihood-Funktion maximiert. Bei der logistischen Regression starten wir direkt mit einem Maximum-Likelihood-Ansatz und geben dann einen ausführlichen Beweis für die Existenz des logistischen Regressors bei überlappenden Datenmengen. Wir besprechen außerdem eine hinreichende Bedingung für dessen Eindeutigkeit.
Sven-Ake Wegner
Kapitel 3. k-nächste Nachbarn
Zusammenfassung
Gegeben ein metrischer Raum und eine gelabelte Datenmenge deren Features Elemente des metrischen Raumes sind, diskutieren wir mehrere Algorithmen, die auf dem Konzept der k-nächsten Nachbarn basieren. Darunter sind insbesondere der k-NN-Klassifizierer mit Mehrheitswahl und der k-NN-Regressor mit arithmetischem Mittel. Der Effekt des Overfittings wird anhand von Beispielen diskutiert. Wir stellen einige Preprocessingmethoden vor und verallgemeinern dann das anfangs genannte Setting von metrischen Räumen auf Abstandsmaße. Dies erlaubt es uns, die Kosinusähnlichkeit bzw. den Kosinusabstand zu behandeln. Als Beispiele diskutieren wir Textmining, Produktbewertungen und Handschrifterkennung.
Sven-Ake Wegner
Kapitel 4. Clustering
Zusammenfassung
Wir besprechen die klassischen Methoden des verknüpfungsbasierten und kostenminimierenden Clusterings für ungelabelte Datenmengen. Dabei behandeln wir in Beispielen auch Situationen, in denen wir Abstände nicht bezüglich der euklidischen Norm verstehen, sondern z.B. bezüglich ∞-Norm oder 1-Norm.
Sven-Ake Wegner
Kapitel 5. Graphenclustering
Zusammenfassung
Wir greifen das Beispiel sozialer Netzwerke aus Kapitel 1 auf und beschäftigen uns mit der Frage, wie Cluster in einem solchen Netzwerk gefunden werden können. Nach Einführung einiger Begriffe aus der Graphentheorie (insbesondere: Adjazenz- und Laplacematrix) stellen wir via der Courant-Fischer-Formel zunächst heuristisch den Zusammenhang zwischen Clustern und Eigenwerten her. Nach der Einführung weiterer Begriffe (insbesondere: normalisierte Laplacematrix, Volumen, Rand, Leitfähigkeit) formalisieren wir den genannten Zusammenhang via der Cheegerungleichung.
Sven-Ake Wegner
Kapitel 6. Bestpassende Unterräume
Zusammenfassung
Ist eine ungelabelte Datenmenge gegeben, so definieren wir zuerst zugehörige k-bestpassende Unterräume als Lösung(en) einer Minimierungsaufgabe. Dies verläuft ähnlich zur Methode der kleinsten Quadrate aus Kapitel 2, nur werden diesmal alle Koordinaten der Datenpunkte einbezogen. Durch Umformulierung der anfänglichen Minimierungsaufgabe in eine Maximierungsaufgabe kommen wir auf den gierigen Algorithmus zur Bestimmung eines k-bestpassenden Unterraumes.
Sven-Ake Wegner
Kapitel 7. Singulärwertzerlegung
Zusammenfassung
Wir präsentieren zunächst einen nur auf Standardmethoden der Linearen Algebra basierenden Zugang zur Singulärwertzerlegung für nicht-quadratische Matrizen. Mithilfe der Courant-Fischer-Formel stellen wir dann den Zusammenhang zum bereits in Kapitel 6 diskutierten gierigen Algorithmus her. Es folgen Anwendungen zur Dimensionalitätsreduktion von Datenmengen und zur Bestapproximation niedrigeren Ranges von Datenmatrizen. Als konkretes Beispiel behandeln wir die Bildkompression. Schließlich illustrieren wir die Hauptkomponentenanalyse (englisch: Principal Component Analysis oder PCA), sowie die Methode des kollaborativen Filterns anhand einer Datenmenge von Filmbewertungen.
Sven-Ake Wegner
Kapitel 8. Fluch und Segen der hohen Dimension
Zusammenfassung
Viele Datenmengen leben in natürlicher Weise in einem hochdimensionalen Raum. Mithilfe von Experimenten und einfachen Berechnungen erkunden wir in diesem Kapitel die auf den ersten Blick merkwürdig erscheinenden Eigenschaften von Datenmengen in hohen Dimensionen. Dabei gehen wir besonders auf Daten ein, die gleichmäßig-zufällig aus dem Hypercube oder gaußverteilt-zufällig aus dem ganzen Raum gewählt wurden.
Sven-Ake Wegner
Kapitel 9. Maßkonzentration
Zusammenfassung
Wir vertiefen die in Kapitel 8 begonnenen Untersuchungen zu gleichverteilt-zufälligen Datenmengen und beweisen zuerst den Satz über die Oberflächenkonzentration und dann den Satz über die Taillenkonzentration. Eine probabilistische Interpretation zeigt dann, dass die in Kapitel 8 zunächst als merkwürdig wahrgenommenen Effekte ganz im Gegenteil sehr plausibel sind.
Sven-Ake Wegner
Kapitel 10. Gaußsche Zufallsvektoren in hohen Dimensionen
Zusammenfassung
In diesem Kapitel beweisen wir den Gaußschen Schalensatz (englisch: Gaussian Annulus Theorem) mithilfe der Chernoff-Methode. Als Folgerungen präsentieren wir den Gaußschen Orthogonalitätssatz sowie den Gaußschen Abstandssatz. Diese Sätze plausibilisieren dann auch die in Kapitel 8 zunächst als unintuitiv erschienenen Eigenschaften hochdimensionaler gaußverteiler Daten.
Sven-Ake Wegner
Kapitel 11. Dimensionalitätsreduktion à la Johnson-Lindenstrauss
Zusammenfassung
Als weitere Folgerung aus dem Gaußschen Schalensatz beweisen wir das Johnson-Lindenstrauss-Lemma über Zufallsprojektionen und illustrieren dessen Anwendung zur Dimensionalitätsreduktion.
Sven-Ake Wegner
Kapitel 12. Trennung hochdimensionaler Gaußiane und Parameteranpassung
Zusammenfassung
Wir beantworten die Frage danach wie hochdimensionale Datenmengen, die von mehreren überlagerten Gaußverteilungen stammen, wieder getrennt werden können. In der Tat spielt uns hier die hohe Dimension in die Hände und wir formalisieren dies in Form eines asymptotischen Trennungssatzes. Außerdem diskutieren wir die Parameterschätzung (Fitting) für einen einzelnen sogenannten Gaußian mit der Maximum-Likelihood-Methode.
Sven-Ake Wegner
Kapitel 13. Perzeptron
Zusammenfassung
Wir kehren zu Klassifikationsproblemen bei niedrigdimensionalen Datenmengen zurück und zeigen, wie für binär gelabelte, linear trennbare Datenmengen mithilfe des Perzeptronalgorithmus ein Klassifizierer gefunden werden kann.
Sven-Ake Wegner
Kapitel 14. Support-Vector-Maschinen
Zusammenfassung
Wir bleiben im Setting von Kapitel 13, wollen aber nun den „besten“ Klassifizierer für eine linear trennbare Datenmenge finden. Letzterer, a.k.a. die Support-Vector-Maschine (SVM), ist hierbei derjenige Klassifizierer, bei dem die Entscheidungsgrenze den größtmöglichen Abstand zu den Datenpunkten hat. Die Aufgabe eine solche SVM zu finden, führen wir mithilfe des Satzes von Karush-Kuhn-Tucker auf ein quadratisches Optimierungsproblem zurück und diskutieren dann anhand von Beispielen die Bedeutung der auftauchenden Lagrangemultiplikatoren.
Sven-Ake Wegner
Kapitel 15. Kernmethode
Zusammenfassung
Als Nächstes betrachten wir Datenmengen, die nicht linear trennbar sind. Um diese dennoch mit den Methoden der letzten zwei Kapitel zu behandeln, bilden wir unsere gegebene, nicht linear trennbare, Datenmenge in einen höherdimensionalen (und manchmal sogar unendlichdimensionalen!) Raum ab. Ist dann die abgebildete Datenmenge linear trennbar, so können wir auf diese den Perzeptronalgorithmus oder die SVM-Methode anwenden und erhalten einen induzierten Klassifizierer für die Originaldaten. Letzteres führt auf den sogenannten Kernel-Trick, bei dem man den höherdimensionalen Raum gar nicht genau zu kennen braucht und trotzdem einen Klassifizierer durch Lösung eines quadratischen Optimierungsproblems bestimmen kann. Die Frage nach der Existenz einer dafür benötigten Kernfunktion behandeln wir in Form der Mercer-Bedingung.
Sven-Ake Wegner
Kapitel 16. Neuronale Netze
Zusammenfassung
In diesem Kapitel beschäftigen wir uns mit künstlichen neuronalen Netzen. Nach einigen einfachen Beispielen zur exakten Darstellung boolscher Funktionen durch neuronale Netze mit Heaviside-Aktivierung diskutieren wir die gleichmäßige Approximation stetiger Funktionen durch flache bzw. tiefe neuronale Netze. Höhepunkte sind die Sätze von Cybenko, Leshno-Lin-Pinkus-Schocken und Hanin. Im zweiten Teil des Kapitels diskutieren wir die Methode der Rückwärtspropagation (englisch: Backpropagation) mit der die Gewichte und Bias eines neuronalen Netzes an eine gegebene Datenmenge angepasst werden können. Wir behandeln hier zuerst tiefe neuronale Netze mit linearem Ausgang, welche z.B. als Regressoren für kontinuierlich gelabelte Daten benutzt werden können. Anschließend betrachten wir tiefe neuronale Netze mit Softmaxausgang. Letztere eignen sich z.B. gut für one-hot-kodierte Datenmengen, wie sie bei der Handschrifterkennung auftreten.
Sven-Ake Wegner
Kapitel 17. Gradientenverfahren für konvexe Funktionen
Zusammenfassung
Im letzten Kapitel geben wir eine Einführung zum Gradientenverfahren, welches bei vielen Data-Science- und Machine-Learning-Problemen zum Einsatz kommt. Neben klassischen Resultaten zur Konvergenz des Verfahrens für μ-konvexe und L-glatte Funktionen diskutieren wir auch den Fall, dass die zu minimierende Funktion lediglich konvex und differenzierbar ist.
Sven-Ake Wegner
Kapitel 18. Ausgewählte Resultate der Wahrscheinlichkeitstheorie
Zusammenfassung
Wir fassen als Anhang einige Resultate aus der Wahrscheinlichkeitstheorie zusammen, die wir im Haupttext regelmäßig benutzt haben.
Sven-Ake Wegner
Backmatter
Metadaten
Titel
Mathematische Einführung in Data Science
verfasst von
Sven-Ake Wegner
Copyright-Jahr
2023
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-68697-3
Print ISBN
978-3-662-68696-6
DOI
https://doi.org/10.1007/978-3-662-68697-3