Skip to main content
main-content

Über dieses Buch

Dieses Buch bietet einen leicht verständlichen Einstieg in die Thematik des Data Minings und der Prädiktiven Analyseverfahren. Als Methodensammlung gedacht, bietet es zu jedem Verfahren zunächst eine kurze Darstellung der Theorie und erklärt die zum Verständnis notwendigen Formeln. Es folgt jeweils eine Illustration der Verfahren mit Hilfe von Beispielen, die mit dem Programmpaket R erarbeitet werden. Zum Abschluss wird eine einfache Möglichkeit präsentiert, mit der die Performancewerte verschiedener Verfahren mit statistischen Mitteln verglichen werden können. Zum Einsatz kommen hierbei geeignete Grafiken und Konfidenzintervalle.Das Buch verzichtet nicht auf Theorie, es präsentiert jedoch so wenig Theorie wie möglich, aber so viel wie nötig und ist somit optimal für Studium und Selbststudium geeignet.

Inhaltsverzeichnis

Frontmatter

Kapitel 1. Data Science, Predictive Analytics oder einfach: – Datenanalyse –

Zusammenfassung
Das erste Kapitel enthält eine Einführung in die Thematik der Datenanalyse, Begriffe aus dem maschinellen Lernen wie „überwachtes“ und „nicht überwachtes Lernen“ werden erläutert ebenso wie der Unterschied zwischen Klassifikations- und Regressionsfragestellungen. Das Kapitel umfasst auch eine Beschreibung der im Buch verwendeten Beispieldateien sowie eine Literaturübersicht.
Marlis von der Hude

Deskriptive Verfahren

Frontmatter

Kapitel 2. Deskriptive Statistik/Explorative Datenanalyse – mit einer kurzen Einführung in R

Zusammenfassung
Bevor fortgeschrittene Techniken auf Daten angewendet werden, sollte man sich mit geeigneten Maßzahlen und Grafiken einen Überblick über die Daten verschaffen. In diesem Kapitel wird eine kurze Einführung in das Datenanalysetool R gegeben und gezeigt, wie man mit R gebräuchliche Lage- und Streuungsparameter sowie Grafiken zur Darstellung der Verteilung der Daten erzeugen kann.
Marlis von der Hude

Kapitel 3. Korrelation

Zusammenfassung
Der Korrelationskoeffizient ist eine Maßzahl, mit der Stärke und Richtung eines monotonen Zusammenhangs zwischen quantitativen oder ordinalen Merkmalen quantifiziert werden können. Sind zwei Merkmale stark korreliert, so kann man eines mit Hilfe des anderen vorhersagen. Bei quantitativen Daten kann die Art des Zusammenhangs durch Streudiagramme veranschaulicht werden. Für mehr als zwei Merkmale werden die Korrelationskoeffizienten in der Korrelationsmatrix zusammengestellt. Sie können auch durch Grafiken sehr gut veranschaulicht werden.
Marlis von der Hude

Clusterverfahren

Frontmatter

Kapitel 4. Distanzen zwischen Objekten

Zusammenfassung
Distanzen zwischen Datenobjekten werden für mehrere Verfahren der Datenanalyse benötigt, wie z.B. für die Clusteranalyse oder auch für die Klassifikation durch Bestimmung der nächstgelegenen Objekte. In diesem Kapitel wird eine kleine Auswahl der gängigsten Distanzmaße vorgestellt. Damit kein Merkmal die Distanz dominiert, wird zunächst eine Skalierung empfohlen. Durch ein R-Beispiel wird die Vorgehensweise verdeutlicht.
Marlis von der Hude

Kapitel 5. Clusteranalyse

Zusammenfassung
In der Clusteranalyse werden ähnliche Datenobjekte zu Clustern zusammengefasst. Die Anwendungsbereiche sind sehr vielfältig ebenso wie die Verfahren. Es wird eine Auswahl klassischer aber auch neuerer Verfahren vorgestellt. Bei den hierarchischen Clusterverfahren sind dies das Single-linkage-, Complete-linkage-, Average-linkage-, das Zentroid- und ein divisives Verfahren, bei den partitionierenden Verfahren werden der k-means-, der k-medoid-Algorithmus sowie das Fuzzy-Clustern beschrieben. Als neueres Verfahren wird das Dichte-basierte Clustern erläutert. Anhand von R-Beispielen werden die Unterschiede verdeutlicht.
Marlis von der Hude

Dimensionsreduktion

Frontmatter

Kapitel 6. Dimensionsreduktion – Hauptkomponentenanalyse englisch: principal components (PCA)

Zusammenfassung
Die Dimensionsreduktion wird bei höherdimensionalen Daten eingesetzt, sei es um Speicherplatz einzusparen oder um Datenobjekte in der zweidimensionalen Ebene darstellen zu können. In diesem Kapitel werden die Prinzipien der Dimensionsreduktion durch Hauptkomponentenanalyse (principal components analysis, PCA) erläutert. Hierbei werden neue Merkmale, die sogenannten Hauptkomponenten, als Linearkombinationen aus den bestehenden Merkmalen gebildet. Die wichtigsten Hauptkomponenten sind diejenigen, die den größten Anteil der erfassten Varianz, und damit der Information, die in den Daten steckt, enthalten. Im Screeplot werden die Varianzen der Hauptkomponenten grafisch dargestellt. Dadurch kann man visuell beurteilen, wieviel Hauptkomponenten sinnvollerweise benutzt werden sollten.
Marlis von der Hude

Prädiktive Verfahren

Frontmatter

Kapitel 7. Prädiktive Verfahren: Klassifikation und Regression

Zusammenfassung
Die prädiktiven Analyseverfahren werden eingeteilt in Verfahren für die Regressions- bzw. Klassifikationsfragestellung, je nachdem ob quantitative oder qualitative Werte prognostiziert werden sollen. Es wird zwischen Memory-basierten und Modell-basierten Prognosetechniken unterschieden. Verschiedene Anwendungsbeispiele sollen die Unterschiede verdeutlichen. Es folgt ein erster Überblick über die verschiedenen in den weiteren Kapiteln beschriebenen Verfahren mit einer ersten kurzen Beschreibung der Evaluierung der Prognosegüte.
Marlis von der Hude

Kapitel 8. k-nächste Nachbarn (k nearest neighbours)

Zusammenfassung
Das Verfahren der k-nächsten Nachbarn (k-nearest neighbours) ist eine einfache Methode, um Werte der Zielgröße zu prognostizieren. Bei der Klassifikationsfragestellung zählt man, wieviele der Nachbarn zu welcher Klasse gehören und fällt eine Mehrheitsentscheidung. Bei der Regressionsfragestellung bildet man den Mittelwert der Zielgröße der Nachbarn und weist diesen Mittelwert dem neuen Objekt zu. In diesem Kapitel werden diese Techniken beschrieben und es werden Begriffe und Maßzahlen eingeführt, die auch bei den weiteren prädiktiven Verfahren zum Einsatz kommen, wie z.B. die Konfusionsmatrix, Klassifikationsfehler und Accuracy, RMSE (Root Mean Square Error), das Bestimmtheitsmaß sowie auch die Überanpassung, das Overfitting.
Marlis von der Hude

Kapitel 9. Regressionsanalyse – Ein klassisches Verfahren der Statistik

Zusammenfassung
Bei der Regressionsanalyse geht es darum, als Modell eine Funktionsgleichung - die Regressionsgleichung - für die Abhängigkeit einer quantitativen Zielgröße von einem oder mehreren Merkmalen zu erstellen. Es können lineare, polynomiale, exponenzielle Abhängigkeiten oder Kombinationen hiervon beschrieben werden. Auch ganz beliebige Funktionsarten sind einsetzbar. In diesem Kapitel werden nur die klassischen Ansätze, also lineare, polynomiale und ganz kurz auch exponzielle Funktionen betrachtet. Bei den Regressionsgleichungen mit mehreren Einflussgrößen, der multiplen Regression, stellt sich die Frage, wieviele der (potenziellen) Merkmale ins Modell aufgenommen werden sollen. Zur Beantwortung dieser Frage wird eine Maßzahl vorgestellt, das Akaike-Informationskriterium, der AIC-Wert. Dieses Kapitel kann in seiner Kürze nur einen ersten Einblick in die Regressionsanalyse liefern, wir behandeln das Thema rein deskriptiv und illustrieren die Vorgehensweise durch ein Beispiel.
Marlis von der Hude

Kapitel 10. Logistische Regression – Ein Prognoseverfahren für die Klassifikationsfragestellung

Zusammenfassung
Bei der logistischen Regression wird als Modell eine Funktionsgleichung ermittelt, die die Abhängigkeit einer qualitativen Zielgröße von einem oder mehreren Merkmalen beschreibt, es sollen also Klassenzugehörigkeiten, die Klassenlabels, prognostiziert werden. Durch Anwendung der Logittransformation ist es möglich, ähnlich vorzugehen wie bei der „normalen“ Regressionsanalyse. Anhand eines Beispiels mit qualitativen und quantitativen Einflussmerkmalen wird gezeigt, wie die Funktionsgleichung interpretiert werden kann. Bei der binären logistischen Regression handelt es sich um ein Modell mit zwei Klassen, die multinomiale logistische Regression stellt die Erweiterung auf mehr als zwei Klassen dar. In diesem Buch wird nur der binäre Fall behandelt.
Marlis von der Hude

Kapitel 11. Klassifikations- und Regressionsbäume (Trees)

Zusammenfassung
Bei der Erstellung von Klassifikations- und Regressionsbäumen werden durch fortgesetztes Splitten der Lerndaten immer homogenere Knoten erzeugt, d.h. innerhalb der Knoten variieren die Werte der Zielgröße nur sehr wenig. Es werden verschiedene Heterogenitätsmaße sowie - für die Evaluation der Prognosegüte - weitere Performancemaße eingeführt. Die Kreuzvalidierung als Alternative zur einfachen Aufteilung in Trainings- und Testdaten wird im Detail beschrieben. Um unterschiedliche Fehlklassifikationsarten unterschiedlich stark zu gewichten, können Fehlklassifikationskosten eingesetzt werden. Eine Verallgemeinerung einzelner Baummodelle bilden Random Forests. Alle Begriffe werden durch Beispiele illustriert.
Marlis von der Hude

Kapitel 12. Naives Bayes-Klassifikationsverfahren

Zusammenfassung
Das naive Bayes-Verfahren ist ein weiteres Klassifikationsverfahren. Es wird zunächst für jede Klasse die Wahrscheinlichkeit geschätzt, mit der ein Objekt zu dieser Klasse gehört, wobei die aus der Statistik bekannte Bayes-Formel für bedingte Wahrscheinlichkeiten benutzt wird. Anschließend wird die Klasse mit der höchsten Wahrscheinlichkeit für die Klassenprognose gewählt. Bei der bedingten Wahrscheinlichkeit stellen die Eigenschaften des Objekts die Bedingung dar. Beim naiven Bayes Ansatz geht man davon aus, dass die Objekteigenschaften innerhalb der Klassen unabhängig voneinander eintreten. Dadurch kommt man auch mit relativ kleinen Objektanzahlen aus.
Marlis von der Hude

Kapitel 13. Support-Vector-Machines

Zusammenfassung
Während bei Klassifikationsbäumen das Klassenlabel durch Regeln zugewiesen wird, die geometrisch auch als Prognosebereiche mit linearen parallel zu den Koordinatenachsen verlaufenden Grenzen zu interpretieren sind, können bei Support-Vector-Machines ganz flexible Trennlinien als Grenzen bestimmt werden. Bei der Bestimmung dieser Grenzen kommen mathematische Verfahren aus der Optimierung zum Einsatz. Klassenhäufigkeiten bzw. -wahrscheinlichkeiten spielen hier keine Rolle. Das Verfahren ist zunächst nur für zwei Klassen geeignet, es kann jedoch auf mehr als zwei Klassen übertragen werden. Die Anwendung auf verschiedene Datensätze wird mit Beispielen illustriert.
Marlis von der Hude

Kapitel 14. Neuronale Netze

Zusammenfassung
Mit neuronalen Netzen können Modelle zur Prognose von qualitativen und quantitativen Werten erstellt werden. Die Modellierung orientiert sich an biologischen Vorgängen im Gehirn. Die Neuronen im Gehirn sind miteinander mehr oder weniger stark durch Synapsen verbunden. Ein Lernvorgang erfolgt, indem bestimmte Synapsen gestärkt werden. Dieses Konzept wird auf Datenprognosen übertragen. Die Stärke der Synapsen wird durch Gewichte beschrieben, die durch Optimierungsverfahren so bestimmt werden, dass die Fehlerrate bei Prognosen minimal wird. In diesem Buch wird ein kleiner Einstieg in die sehr umfangreiche Thematik gegeben. Es werden nur einfache neuronale Netze betrachtet.
Marlis von der Hude

Kapitel 15. Empirischer Vergleich der Performance verschiedener Klassifikationsverfahren

Zusammenfassung
Zum Abschluss wird eine einfache Möglichkeit präsentiert, mit der die Performance verschiedener Verfahren verglichen werden kann. Die Vorgehensweise wird anhand von vier Klassifikationsverfahren gezeigt, die auf dieselbe Datei mit jeweils derselben Aufteilung in Trainings- und Testdaten angewendet werden. Zunächst werden in speziellen Streudiagrammen - den Bland-Altman-Plots - die paarweisen Differenzen den entsprechenden paarweisen Mittelwerten gegenübergestellt. Dadurch kann man visuell beurteilen, ob der Unterschied zwischen den Fehlklassifikationsraten zweier Verfahren vom Ausmaß der Fehlklassifikationen abhängt. Auch eine Abhängigkeit der Streuung der Differenzen vom Ausmaß könnte erkannt werden. Für die Erwartungswerte der paarweisen Differenzen werden abschließend Konfidenzintervalle erstellt.
Marlis von der Hude

Backmatter

Weitere Informationen

Premium Partner

    Bildnachweise