Skip to main content

2024 | Buch

Maschinelles Lernen

Die Grundlagen

insite
SUCHEN

Über dieses Buch

Maschinelles Lernen (ML) ist zu einem alltäglichen Element in unserem Leben und zu einem Standardwerkzeug für viele Bereiche der Wissenschaft und Technik geworden. Um ML optimal nutzen zu können, ist es wichtig, die zugrunde liegenden Prinzipien zu verstehen.

In diesem Buch wird ML als die rechnerische Umsetzung des wissenschaftlichen Prinzips betrachtet. Dieses Prinzip besteht darin, ein Modell eines gegebenen datenerzeugenden Phänomens kontinuierlich anzupassen, indem eine Form des Verlustes, der durch seine Vorhersagen entsteht, minimiert wird.

Das Buch schult den Leser darin, verschiedene ML-Anwendungen und -Methoden in drei Komponenten (Daten, Modell und Verlust) aufzuschlüsseln, und hilft ihm so, aus dem riesigen Angebot an vorgefertigten ML-Methoden auszuwählen.

Der Drei-Komponenten-Ansatz des Buches erlaubt eine einheitliche und transparente Darstellung verschiedener ML-Techniken. Wichtige Methoden zu Regularisierung, zum Schutz der Privatsphäre und zur Erklärbarkeit von ML-Methoden sind Spezialfälle dieses Drei-Komponenten-Ansatz.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Einführung
Zusammenfassung
Stellen Sie sich vor, Sie wachen an einem Wintermorgen in Finnland auf und schauen aus dem Fenster. Es scheint ein schöner sonniger Tag zu werden, der ideal für einen Skiausflug ist. Um die richtige Ausrüstung (Kleidung, Wachs) auszuwählen, ist es wichtig, eine Vorstellung von der maximalen Tagestemperatur zu haben, die typischerweise am frühen Nachmittag erreicht wird. Wenn wir eine maximale Tagestemperatur von etwa plus 5° erwarten, ziehen wir vielleicht nicht die extra warme Jacke an, sondern nehmen nur ein zusätzliches Hemd zum Wechseln mit.
Alexander Jung
Kapitel 2. Komponenten des ML
Zusammenfassung
Ein ML-Problem beinhaltet spezifische Designentscheidungen für Datenpunkte, deren Merkmale und Labels, den Hypothesenraum (oder Modell) und die Verlustfunktion zur Messung der Qualität einer bestimmten Hypothese. Ähnlich wie bei ML-Problemen (oder Anwendungen) können wir ML-Methoden auch als Kombinationen der drei oben genannten Komponenten charakterisieren.
Alexander Jung
Kapitel 3. Die Landschaft des ML
Zusammenfassung
Jede dieser drei Komponenten beinhaltet Designentscheidungen für die Darstellung von Daten, deren Merkmale und Labels, das Modell und die Verlustfunktion. Dieses Kapitel beschreibt die hochrangigen Designentscheidungen, die von einigen der beliebtesten ML-Methoden verwendet werden. Abb. 3.1 stellt diese ML-Methoden in einer zweidimensionalen Ebene dar, deren horizontale Achse verschiedene Hypothesenräume repräsentiert und die vertikale Achse verschiedene Verlustfunktionen darstellt.
Alexander Jung
Kapitel 4. Empirische Risikominimierung
Zusammenfassung
Kap. 2 diskutierte drei Hauptkomponenten von ML (siehe Abb. 2.1): Datenpunkte, die durch Merkmale \(\mathbf{x}\in \mathcal {X}\) und Labels \( y\in \mathcal {Y}\) charakterisiert sind, einen Hypothesenraum \(\mathcal {H}\) von rechnerisch machbaren Vorhersagekarten \(\mathcal {X}\rightarrow \mathcal {Y}\), und eine Verlustfunktion \(L({(\mathbf{x},y)},{h})\), die die Diskrepanz zwischen den Vorhersagen einer Hypothese h und tatsächlichen Datenpunkten misst. Idealerweise möchten wir eine Hypothese \(h \in \mathcal {H}\) erlernen, so dass \(L({(\mathbf{x},y)},{h})\) für jeden Datenpunkt \((\mathbf{x},y)\) klein ist. In der Praxis können wir den Verlust jedoch nur für eine endliche Menge von beschrifteten Datenpunkten messen, die als Trainingsset dient.
Alexander Jung
Kapitel 5. Gradientenbasiertes Lernen
Zusammenfassung
Im Folgenden betrachten wir ML-Methoden, die einen parametrisierten Hypothesenraum verwenden \(\mathcal {H}\). Jede Hypothese \(h^{(\mathbf{w})} \in \mathcal {H}\) in diesem Raum ist durch einen spezifischen Gewichtsvektor charakterisiert \(\mathbf{w}\in \mathbb {R}^{n}\). Darüber hinaus betrachten wir ML-Methoden, die eine Verlustfunktion verwenden \(L({(\mathbf{x},y)},{h^{(\mathbf{w})}})\) so dass der durchschnittliche Verlust oder das empirische Risiko \( f(\mathbf{w}) :=(1/m) \sum _{i=1}^{m} L({(\mathbf{x}^{(i)},y^{(i)})},{h^{(\mathbf{w})}})\) reibungslos vom Gewichtsvektor abhängt \(\mathbf{w}\).
Alexander Jung
Kapitel 6. Modellvalidierung und -auswahl
Zusammenfassung
Kap. 4 diskutierte ERM als einen prinzipiellen Ansatz zum Erlernen einer guten Hypothese aus einem Hypothesenraum oder Modell. ERM-basierte Methoden lernen eine Hypothese \(\hat{h} \in \mathcal {H}\) die einen minimalen durchschnittlichen Verlust bei einigen beschrifteten Datenpunkten verursacht, die als Trainingsset dienen. Wir bezeichnen den durchschnittlichen Verlust, den eine Hypothese im Trainingsset verursacht, als Trainingsfehler. Der minimale durchschnittliche Verlust, der von einer Hypothese erzielt wird, die das ERM löst, könnte als Trainingsfehler der gesamten ML-Methode bezeichnet werden. ERM macht nur Sinn, wenn der Trainingsfehler einer Hypothese ein guter Indikator für ihren Verlust bei Datenpunkten außerhalb des Trainingssets ist. Ob der Trainingsfehler einer Hypothese ein zuverlässiger Indikator für ihre Leistung außerhalb des Trainingssets ist, hängt von den statistischen Eigenschaften der Datenpunkte und dem von der ML-Methode verwendeten Hypothesenraum ab.
Alexander Jung
Kapitel 7. Regularisierung
Zusammenfassung
Viele ML-Methoden verwenden das Prinzip der ERM (siehe Kap. 4), um eine Hypothese aus einem Hypothesenraum zu lernen, indem sie den durchschnittlichen Verlust (Trainingsfehler) auf einer Menge von beschrifteten Datenpunkten (Trainingsset) minimieren.
Alexander Jung
Kapitel 8. Clustering
Zusammenfassung
Bisher haben wir uns auf ML-Methoden konzentriert, die das ERM-Prinzip verwenden und eine Hypothese lernen, indem sie die Diskrepanz zwischen ihren Vorhersagen und den wahren Labels in einem Trainingsset minimieren.
Alexander Jung
Kapitel 9. Merkmalslernen
Zusammenfassung
Kap. 2 diskutierte Merkmale als jene Eigenschaften eines Datenpunkts, die leicht gemessen oder berechnet werden können. Manchmal ergibt sich die Wahl der Merkmale natürlich aus der verfügbaren Hardware und Software. Zum Beispiel könnten wir die numerische Messung \(z\in \mathbb {R}\) die von einem Sensor geliefert wird, als Merkmal verwenden. Allerdings könnten wir dieses einzelne Merkmal mit neuen Merkmalen wie den Potenzen \(z^{2}\) und \(z^{3}\) oder das Hinzufügen einer Konstanten \(z+5\) erweitern. Jede dieser Berechnungen erzeugt ein neues Merkmal. Welche dieser zusätzlichen Merkmale sind am nützlichsten?
Alexander Jung
Kapitel 10. Transparentes und erklärbares ML
Zusammenfassung
Der erfolgreiche Einsatz von ML-Methoden hängt von ihrer Transparenz (oder Erklärbarkeit) ab. Wir beziehen uns auf Techniken, die darauf abzielen, ML-Methoden transparent (oder erklärbar) zu machen, als erklärbares ML. Erklärungen für die Vorhersagen einer ML-Methode sind besonders wichtig, wenn diese Vorhersagen die Entscheidungsfindung informieren [1]. Erklärungen für automatisierte Entscheidungssysteme sind zu einer gesetzlichen Anforderung geworden [2].
Alexander Jung
Backmatter
Metadaten
Titel
Maschinelles Lernen
verfasst von
Alexander Jung
Copyright-Jahr
2024
Verlag
Springer Nature Singapore
Electronic ISBN
978-981-9979-72-1
Print ISBN
978-981-9979-71-4
DOI
https://doi.org/10.1007/978-981-99-7972-1

Premium Partner