Skip to main content

2024 | Buch

Online Machine Learning

Eine praxisorientierte Einführung

insite
SUCHEN

Über dieses Buch

Dieses Buch beschreibt Theorie und Anwendungen aus dem Bereich des Online Maschine Learnings (OML), wobei der Fokus auf Verfahren des überwachten Lernens liegt. Es werden Verfahren zur Drifterkennung und -behandlung beschrieben. Verfahren zur nachträglichen Aktualisierung der Modelle sowie Methoden zur Modellbewertung werden dargestellt. Besondere Anforderungen aus der amtlichen Statistik (unbalancierte Daten, Interpretierbarkeit, etc.) werden berücksichtigt. Aktuelle und mögliche Anwendungen werden aufgelistet. Ein Überblick über die verfügbaren Software-Tools wird gegeben. Anhand von zwei Studien (“simulierten Anwendungen”) werden Vor- und Nachteile des OML-Einsatz in der Praxis experimentell analysiert.
Das Buch eignet sich als Handbuch für Experten, Lehrbuch für Anfänger und wissenschaftliche Publikation, da es den neuesten Stand der Forschung wiedergibt. Es kann auch als OML-Consulting dienen, indem Entscheider und Praktiker OML anpassen und für ihre Anwendung einsetzen, um abzuwägen, ob die Vorteile die Kosten aufwiegen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Einleitung: Vom Batch Machine Learning zum Online Machine Learning
Zusammenfassung
Batch Machine Learning (BML), das auch als “Offline-Machine- Learning” bezeichnet wird, stößt bei sehr großen Datenmengen an seine Grenzen. Dies betrifft insbesondere den verfügbaren Speicher, das Behandeln von Drift in Datenströmen und die Verarbeitung neuer, unbekannter Daten. Online Machine Learning (OML) ist eine Alternative zu BML, welche die Grenzen von BML überwindet. In diesem Kapitel werden die grundlegenden Begriffe und Konzepte von OML vorgestellt, wodurch die Unterschiede zum BML sichtbar werden.
Thomas Bartz-Beielstein
Kapitel 2. Supervised Learning: Klassifikation und Regression
Zusammenfassung
Dieses Kapitel gibt eine Übersicht und Bewertung von Online Machine Learning (OML)-Verfahren und Algorithmen und legt speziellen Fokus auf das überwachte Lernen (engl. “supervised learning”). Zunächst werden Verfahren aus den Bereichen Klassifikation (Abschnitt 2.1) und Regression (Abschnitt 2.2) dargestellt. Anschließend werden in Abschnitt 2.3 Ensemble-Verfahren beschrieben. Clustering Verfahren werden in Abschnitt 2.4 kurz erwähnt. Eine Übersicht ist in Abschnitt 2.5 zu finden.
Thomas Bartz-Beielstein
Kapitel 3. Drifterkennung und –behandlung
Zusammenfassung
Drift wurde in Abschnitt 1.2.2 eingeführt. Dieses Kapitel behandelt Methoden zur Drifterkennung und -behandlung, insbesondere für Konzeptdrift. Für die in Kapitel 2 dargestellten Algorithmen wird geklärt, inwiefern auf Konzeptdrift reagiert wird. Inwiefern im Gegenzug das katastrophale Vergessen ein Thema ist, wird in Abschnitt 4.3 beschrieben. Abschnitt 3.1 beschreibt drei Architekturen für die Implementierung von Drifterkennungsalgorithmen. Abschnitt 3.2 beschreibt grundlegende Eigenschaften fensterbasierter Ansätze. Abschnitt 3.3 stellt häufig verwendete Verfahren zur Drifterkennung vor. Abschnitt 3.4 beschreibt, wie die in Abschnitt 3.3 eingeführten Verfahren zur Drifterkennung in OML-Algorithmen zum Einsatz kommen und stellt die im Paket River implementierten baumbasierten OML-Verfahren zusammenfassend dar.
Thomas Bartz-Beielstein
Kapitel 4. Initiale Auswahl und nachträgliche Aktualisierung von OML Modellen
Zusammenfassung
In Abschnitt 4.1 wird eine aktuelle Best-Practice-Methodik zur initialen Modellwahl bei Online Machine Learning (OML)-Modellen beschrieben, die berücksichtigt, dass das Modell kontinuierlich aktualisiert wird. In Abschnitt 4.2 werden Möglichkeiten des Entfernens oder der Änderung von bereits zum Modell hinzugefügten Observationen/Instanzen besprochen. Es wird beschrieben, wie nachträglich dem Modell komplett neue Merkmale hinzugefügt werden können. Zudem wird aufgezeigt, wie nach einem Modellupdate sichergestellt ist, dass die Modellgüte immer noch adäquat ist. Das sogenannte katastrophale Vergessen (katastrophale Interferenz) wird in Abschnitt 4.3 im OML-Kontext betrachtet: Die kontinuierliche Aktualisierung der OML-Modelle birgt das Risiko, dass dieses Lernen nicht erfolgreich ist, wenn korrekt gelernte ältere Zusammenhänge fälschlicherweise vergessen (entlernt, engl. “de-learned”) werden.
Thomas Bartz-Beielstein
Kapitel 5. Evaluation und Performance-Messung
Zusammenfassung
Dieses Kapitel behandelt Aspekte, die bei der Evaluation von Online Machine Learning (OML)-Algorithmen, insbesondere bei deren Vergleich mit Batch Machine Learning (BML)-Algorithmen, zu berücksichtigen sind. Die folgenden Überlegungen spielen hierbei eine wichtige Rolle:
  • 1. Wie werden Trainings- und Testdaten ausgewählt?
  • 2. Wie kann die Performanz gemessen werden?
  • 3. Welche Verfahren zur Erzeugung von Benchmark-Datensätzen gibt es?
Abschnitt 5.1 beschreibt die Auswahl von Trainings- und Testdaten. Abschnitt 5.2 stellt eine Implementierung in Python zur Auswahl von Trainings- und Testdaten vor. Abschnitt 5.3 beschreibt die Berechnung der Performanz. Abschnitt 5.4 beschreibt die Erzeugung von Benchmark-Datensätzen im Bereich von OML.
Thomas Bartz-Beielstein
Kapitel 6. Besondere Anforderungen an OML-Verfahren
Zusammenfassung
Dieses Kapitel untersucht, ob Online Machine Learning (OML)- Algorithmen im Hinblick auf typische Praxis-Herausforderungen wie beispielsweise fehlende Daten (Abschnitt 6.1), kategorische Attribute (Abschnitt 6.2), Ausreißer (Abschnitt 6.3), Imbalanced Data (Abschnitt 6.4), oder eine extrem hohe Anzahl an Variablen (Abschnitt 6.5) besondere Schritte und Überlegungen im Vergleich zu Batch Learning erfordern. Abschnitt 6.6 beschreibt wichtige Aspekte wie Fairness (Fair Machine Learning (ML)) oder Interpretierbarkeit (Interpretable ML) im Kontext von OML-Algorithmen.
Thomas Bartz-Beielstein
Kapitel 7. Praxisanwendungen
Zusammenfassung
Dieses Kapitel beschäftigt sich mit Voraussetzungen, Herausforderungen, Beispielen und Potenzialen von Online-Lernverfahren im Praxiseinsatz, die anhand von Anwendungsbeispielen aufgezeigt werden. Dabei wird speziell anhand des Gebiets der amtlichen Statistik (Abschnitt 7.1) näher beleuchtet, welche Potenziale für den tatsächlichen Praxiseinsatz vorhanden sind, aber auch welche Herausforderungen bestehen (Abschnitt 7.1.1). Insbesondere wird dabei auf Herausforderungen, Online Machine Learning (OML) mit bestehenden Prozessarchitekturen (Abschnitt 7.1.3) und Qualitätssicherungsverfahren (Abschnitt 7.1.2) zu vereinen, eingegangen. Um bestehende und perspektivische Anwendungsfälle von Online Machine Learning (OML) im Rahmen der amtlichen Statistik aufzuzeigen, wird in Abschnitt 7.1.4 die OML-Nutzung in nationalen und internationalen Statistikinstitutionen evaluiert. Ergänzend werden in Abschnitt 7.2 ausgewählte Beispiele, die denen der amtlichen Statistik sehr nahe sind, dargestellt. Generelle, für den Praxiseinsatz wichtige Aspekte werden in Abschnitt 7.3 kurz zusammengefasst.
Steffen Moritz, Florian Dumpert, Thomas Bartz-Beielstein, Eva Bartz
Kapitel 8. Open-Source-Software für Online Machine Learning
Zusammenfassung
Im Gegensatz zum Batch Machine Learning (BML) gibt es für das Online Machine Learning (OML) nur eine überschaubare Zahl von Open-Source- Softwarepaketen. Dieses Kapitel beschreibt die Verfügbarkeit von Open-Source- Softwarepaketen (insbesondere in R/Python), die OML-Methoden und Algorithmen bereitstellen, um Aufgaben wie z.B. Regression, Klassifikation, Clustering, oder Outlier-Detection zu bearbeiten. Abschnitt 8.1 gibt eine Übersicht der Software, an die sich eine Beschreibung der entsprechenden Pakete anschließt. Anschließend gibt Abschnitt 8.2 einen vergleichenden Überblick über den Umfang der einzelnen Softwarepakete. Das Kapitel schließt mit einem Vergleich der wichtigsten Programmiersprachen im Bereich Machine Learning (ML) (Abschnitt 8.3).
Thomas Bartz-Beielstein
Kapitel 9. Ein experimenteller Vergleich von Batch- und Online Machine Learning-Algorithmen
Zusammenfassung
In diesem Kapitel werden die Ergebnisse der experimentellen Analysen vorgestellt. Die erste Studie (Abschnitt 9.1) untersucht die Verwendung von Batch Machine Learning (BML)- und Online Machine Learning (OML)-Modellen für die Vorhersage der Nachfrage nach Fahrrädern in einem Fahrradverleih (engl. “Bike-Sharing-Station”). Die zweite Studie (Abschnitt 9.2) untersucht die Verwendung von BML- und OML-Modellen für die Vorhersage, wenn sehr große Datensätze vorliegen, die mit einer Drift versehen sind. Hierfür wird der synthetische Friedman-Drift-Datensatz (siehe Definition 1.6) verwendet. Alle Datensätze wurden mit der StandardScaler-Methode standardisiert, so dass die Modelle auf Daten mit Mittelwert null und Standardabweichung eins trainiert wurden.
Thomas Bartz-Beielstein
Kapitel 10. Hyperparameter Tuning
Zusammenfassung
Die in diesem Buch vorgestellten Online Machine Learning (OML)-Verfahren weisen eine Vielzahl von Einstellmöglichkeiten, sog. Hyperparameter, auf. So stehen für Hoeffding-Bäume eine Vielzahl von “Splittern” zur Erzeugung von Teilbäumen zur Verfügung. Es gibt unterschiedliche Verfahren zur Begrenzung der Baumgröße, um den Zeit- und Speicherbedarf in vernünftige Bahnen zu lenken. Hinzu treten noch viele weitere Hyperparameter, so dass eine händisch durchgeführte Suche nach der optimalen Einstellung sehr aufwändig ist und durch die Komplexität der Kombinationsmöglichkeiten zum Scheitern verurteilt ist. Daher wird in diesem Kapitel erläutert, wie eine automatische Optimierung der Hyperparameter durchgeführt werden kann. Neben der Optimierung des OML-Verfahrens ist das mit Sequential Parameter Optimization Toolbox (SPOT) durchgeführte Hyperparameter Tuning (HPT) auch für die Erklärbarkeit und Interpretation von OML-Verfahren von Bedeutung und kann zu einem effizienteren und somit ressourcenschonenden Algorithmus führen (“Green IT”).
Thomas Bartz-Beielstein
Kapitel 11. Zusammenfassung und Ausblick
Zusammenfassung
Dieses Kapitel liefert eine abschließende Beurteilung des Potenzials von Online Machine Learning (OML) für die Praxis. Es werden die Ergebnisse der Studien zusammengefasst und diskutiert und konkrete Empfehlungen für die OML-Praxis gegeben. Die Bedeutung einer passenden Vergleichsmethodik für Batch Machine Learning (BML)- und OML-Verfahren wird herausgestellt, um zu vermeiden, dass “Äpfel mit Birnen verglichen werden”. Zudem weisen wir auf das große Potenzial von OML hin, das durch die Entwicklung der Open-Source-Software River vorhanden ist.
Thomas Bartz-Beielstein, Eva Bartz
Backmatter
Metadaten
Titel
Online Machine Learning
herausgegeben von
Thomas Bartz-Beielstein
Eva Bartz
Copyright-Jahr
2024
Electronic ISBN
978-3-658-46162-1
Print ISBN
978-3-658-46161-4
DOI
https://doi.org/10.1007/978-3-658-46162-1