Skip to main content
main-content

Über dieses Buch

Dieses Buch verschafft Ihnen einen Überblick über einige der bekanntesten Verfahren des maschinellen Lernens aus der Perspektive der mathematischen Statistik. Nach der Lektüre kennen Sie die jeweils gestellten Forderungen an die Daten sowie deren Vor- und Nachteile und sind daher in der Lage, für ein gegebenes Problem ein geeignetes Verfahren vorzuschlagen. Beweise werden nur dort ausführlich dargestellt oder skizziert, wo sie einen didaktischen Mehrwert bieten – ansonsten wird auf die entsprechenden Fachartikel verwiesen. Für die praktische Anwendung ist ein genaueres Studium des jeweiligen Verfahrens und der entsprechenden Fachliteratur nötig, zu der Sie auf Basis dieses Buchs aber schnell Zugang finden.

Das Buch richtet sich an Studierende der Mathematik höheren Semesters, die bereits Vorkenntnisse in Wahrscheinlichkeitstheorie besitzen. Behandelt werden sowohl Methoden des Supervised Learning und Reinforcement Learning als auch des Unsupervised Learning. Der Umfang entspricht einer einsemestrigen vierstündigen Vorlesung.

Die einzelnen Kapitel sind weitestgehend unabhängig voneinander lesbar, am Ende jedes Kapitels kann das erworbene Wissen anhand von Übungsaufgaben und durch Implementierung der Verfahren überprüft werden. Quelltexte in der Programmiersprache R stehen auf der Springer-Produktseite zum Buch zur Verfügung.

Inhaltsverzeichnis

Frontmatter

Kapitel 1. Supervised Learning: Grundlagen

Zusammenfassung
Das Kapitel führt die Problemstellung des Supervised Learning zunächst anhand von alltäglichen Beispielen ein. Danach erfolgt schrittweise ein Übergang zu einer formalen Ausdrucksweise mit Hilfe der statistischen Entscheidungstheorie. Lösungen von Problemen des Supervised Learning sind durch sogenannte Algorithmen gegeben; einige Standardmethoden zur Ermittlung sowie die Untersuchung von deren Qualität in der Praxis werden am Ende des Kapitels besprochen. Der Stoff des Kapitels ist allgemein gehalten und enthält noch keine konkreten Modellannahmen und dazugehörigen Algorithmen.
Stefan Richter

Kapitel 2. Lineare Algorithmen für Regressionsprobleme

Zusammenfassung
Das Kapitel führt die Problemstellung des Supervised Learning zunächst anhand von alltäglichen Beispielen ein. Danach erfolgt schrittweise ein Übergang zu einer formalen Ausdrucksweise mit Hilfe der statistischen Entscheidungstheorie. Lösungen von Problemen des Supervised Learning sind durch sogenannte Algorithmen gegeben; einige Standardmethoden zur Ermittlung sowie die Untersuchung von deren Qualität in der Praxis werden am Ende des Kapitels besprochen. Der Stoff des Kapitels ist allgemein gehalten und enthält noch keine konkreten Modellannahmen und dazugehörigen Algorithmen.
Stefan Richter

Kapitel 3. Allgemeines zu Klassifikationsproblemen

Zusammenfassung
In diesem Kapitel wird allgemeine Theorie für Klassifikationsprobleme im Rahmen des Supervised Learning zur Verfügung gestellt. Nach einer Untersuchung der Eindeutigkeit der Bayes-Regel werden die Begriffe des Entscheidungsrands, der Entscheidungsregion und der Diskriminantenfunktion eingeführt, welche einen alternativen Zugang zur Ermittlung der Bayes-Regel liefern. Es werden dann mehrere Ansätze dargestellt, um Algorithmen in Klassifikationsproblemen zu bestimmen. Das Kapitel stellt außerdem Resultate bereit, um den Generalisierungsfehler von Algorithmen mit Hilfe des Risikos der zugehörigen Diskriminantenfunktionen zu ermitteln, was oft einfacher möglich ist.
Stefan Richter

Kapitel 4. Lineare Methoden für Klassifizierungsprobleme und SVMs

Zusammenfassung
Das Kapitel beschäftigt sich mit Algorithmen für Klassifikationsprobleme, bei welchen sich eine optimale Diskriminantenfunktion linear im feature-Vektor X schreiben lässt. Konkret werden die Lineare Diskriminanzanalyse, logistische Regression sowie die Methode der Separierenden Hyperebenen betrachtet, die drei sehr verschiedenen Ansätze entsprechen, wie Klassifikationsprobleme gelöst werden können. Wir zeigen jeweils deren Vorgehen anhand von Beispielen auf und stellen theoretische Resultate vor. In allen drei Fällen gibt es direkt motiviert durch den Ansatz außerdem Erweiterungen der Modellannahmen, die zu komplexeren Modellen führen. Im Falle der Diskriminanzanalyse führt dies direkt zur quadratischen Diskriminanzanalyse; bei der logistischen Regression motivieren wir eine mögliche Erweiterung durch eine komplexere Wahl des feature-Vektors. Die separierenden Hyperebenen werden erweitert zur sogenannten Support Vector Machine, die mit Ihrer Herleitung, Beispielen und theoretischen Betrachtungen einen Großteil des Kapitels einnimmt.
Stefan Richter

Kapitel 5. Nichtparametrische Methoden und der naive Bayes-Klassifizierer

Zusammenfassung
In diesem Kapitel betrachten wir eine Klasse von nichtparametrischen Algorithmen, welche in der Literatur als „Bäume“ bekannt sind. Die einfache Struktur ermöglicht sowohl deren Anwendungen auf Klassifikations- als auch Regressionsprobleme. Im ersten Teil des Kapitels wird die Struktur des zugehörigen Algorithmus formalisiert, so dass Bäume als Lösung von Optimierungsproblemen formuliert werden können. Eine theoretische Betrachtung am Beispiel sogenannter binärer Bäume zeigt, dass auch Bäume in ihrer elementaren Form noch keine guten Eigenschaften besitzen, wenn der feature-Vektor X hochdimensional ist. Im weiteren Verlauf des Kapitels führen wir Techniken wie das Bagging, das Boosting und Random Forests ein, welche durch Kombination mehrerer Bäume versuchen, dieses Problem zu lösen. Wir sehen explizit an den theoretischen Resultaten zum Boosting, dass hier eine bessere Qualität erreicht werden kann.
Stefan Richter

Kapitel 6. Regressions- und Klassifikationsbäume; Bagging, Boosting und Random Forests

Zusammenfassung
In diesem Kapitel betrachten wir eine Klasse von nichtparametrischen Algorithmen, welche in der Literatur als „Bäume“ bekannt sind. Die einfache Struktur ermöglicht sowohl deren Anwendungen auf Klassifikations- als auch Regressionsprobleme. Im ersten Teil des Kapitels wird die Struktur des zugehörigen Algorithmus formalisiert, so dass Bäume als Lösung von Optimierungsproblemen formuliert werden können. Eine theoretische Betrachtung am Beispiel sogenannter binärer Bäume zeigt, dass auch Bäume in ihrer elementaren Form noch keine guten Eigenschaften besitzen, wenn der feature-Vektor X hochdimensional ist. Im weiteren Verlauf des Kapitels führen wir Techniken wie das Bagging, das Boosting und Random Forests ein, welche durch Kombination mehrerer Bäume versuchen, dieses Problem zu lösen. Wir sehen explizit an den theoretischen Resultaten zum Boosting, dass hier eine bessere Qualität erreicht werden kann.
Stefan Richter

Kapitel 7. Neuronale Netzwerke

Zusammenfassung
Neuronale Netzwerke bilden eine flexible Funktionenklasse zur Approximation von stetigen Funktionen. Sie können sowohl in Klassifikations- als auch Regressionsproblemen genutzt werden. Das Kapitel beschäftigt sich hauptsächlich mit sogenannten fully connected neural networks, und motiviert diese Klasse zunächst mit der Vereinfachung der Eingangsdaten in mehreren Schritten. Danach erfolgt eine Formalisierung der Funktionenklasse und es wird die typische anschauliche Darstellung anhand von Diagrammen eingeführt. Die Ermittlung des zugehörigen Algorithmus kann durch ein Optimierungsproblem ausgedrückt werden, dessen Lösung näherungsweise mit Hilfe von Gradientenverfahren diskutiert und ausgeführt wird. Die Qualität des Algorithmus wird an Beispielen und theoretischen Resultaten gezeigt. Am Ende des Kapitels erfolgt ein Ausblick auf komplexere neuronale Netzwerke, die derzeit in der Praxis verwendet werden, für die aber zum derzeitigen Stand noch keine statistischen Resultate bewiesen sind.
Stefan Richter

Kapitel 8. Reinforcement Learning/Bestärkendes Lernen

Zusammenfassung
In diesem Kapitel geben wir eine Einführung in das Paradigma des Reinforcement Learning und verlassen gleichzeitig den Bereich des Supervised Learning. Zunächst geben wir Beispiele typischer Problemstellungen und formalisieren diese anhand von Markov-Entscheidungsprozessen. Wir führen die sogenannte optimale Strategie ein, welche eine Funktion beschreibt, deren Bestimmung im weiteren Verlauf des Kapitels im Vordergrund steht. Die Ermittlung dieser Funktion wird zunächst theoretisch betrachtet, danach werden explizite Verfahren mittels Iterationsalgorithmen formuliert (Q-Value-Iteration). Diese Verfahren werden im weiteren Verlauf des Kapitels auf die in der Praxis vorliegende Situation angepasst, was zu einigen heuristischen Abänderungen führt (Q-Learning). Die Qualität und der Lernverlauf der optimalen Strategie werden anhand von zwei wiederkehrenden Beispielen, einem Labyrinth und dem Tic-Tac-Toe-Spiel dargestellt. Im letzten Teil des Kapitels erfolgt der Übergang zu aktuellen Verfahren mittels des sogenannten Deep-Q-Learning, bei welchem beispielsweise neuronale Netzwerke als Approximationsklassen für die optimale Strategie genutzt werden.
Stefan Richter

Kapitel 9. Unsupervised Learning: Bestimmung von Repräsentanten

Zusammenfassung
In diesem und dem folgenden Kapitel wird das Paradigma des Unsupervised Learning betrachtet. Im Gegensatz zum Supervised Learning werden hier nur noch Realisierungen des feature-Vektors X beobachtet, jedoch kein zugehöriges Y. Zu Beginn des Kapitels werden zunächst zwei mögliche Ziele des Unsupervised Learning formuliert. Das restliche Kapitel setzt sich dann mit dem ersten Ziel, dem Finden von möglichst sinnvollen Repräsentanten der Trainingsdaten auseinander. Dies ermöglicht die Aufteilung der Daten in eine bestimmte, vorher vorgegebene Anzahl von Gruppen (Cluster). Es werden zwei Verfahren betrachtet, das k-means-Clustering und das Clustering mit Mischungsverteilungen. Für beide werden sowohl Motivation, Modellannahmen, praktische Beispiele und theoretische Resultate diskutiert. Beim Clustering mit Mischungsverteilungen wird der sogenannte EM-Algorithmus eingeführt, der in vielen weiteren Praxisbeispielen Anwendung findet.
Stefan Richter

Kapitel 10. Unsupervised Learning: Dimensionsreduktion

Zusammenfassung
Dieses Kapitel setzt sich mit der Dimensionsreduktion der Trainingsdaten im Paradigma des Unsupervised Learnings auseinander. Der Grundgedanke der hier vorgestellten Algorithmen ist, dass die wesentlichen Informationen der Trainingsdaten oft bereits in einem niedrigdimensionaleren Unterraum liegen und diese Unterräume identifiziert werden müssen. Hier werden zwei Verfahren (die Hauptkomponentenanalyse und das Spektrale Clustern) vorgestellt, welche die gegebenen Trainingsdaten in diese Unterräume projizieren. Wir motivieren die Verfahren jeweils anschaulich, formalisieren diese und geben statistische Resultate. Bei der Hauptkomponentenanalyse beginnen wir mit der aus der Statistik bekannten linearen Variante und erweitern diese dann zum Kern-basierten Verfahren. Das spektrale Clustern wird graphentheoretisch motiviert und dann mit der Hauptkomponentenanalyse in Beziehung gesetzt. Ein besonderes Augenmerk des Kapitels liegt auf der Formalisierung der mit den Verfahren geschätzten Größen, welche die statistischen Resultate besser verständlich machen und somit auch zum Verständnis der graphischen Resultate in den Beispielen beitragen.
Stefan Richter

Backmatter

Weitere Informationen

Premium Partner

    Bildnachweise