Skip to main content
main-content

Über dieses Buch

Die wichtigsten Methoden zur Erkennung und Extraktion von „Wissen“ aus numerischen und nichtnumerischen Datenbanken in Technik und Wirtschaft werden in diesem Buch behandelt. Es vermittelt einen kompakten, fundierten Überblick über die verschiedenen Methoden sowie deren Motivation und versetzt den Leser in die Lage, Data Mining selbst praktisch einzusetzen.

Inhaltsverzeichnis

Frontmatter

1. Einführung

Zusammenfassung
Dieses Buch behandelt Modelle und Algorithmen für die Analyse von Daten, zum Beispiel Daten aus industriellen und geschäftlichen Prozessen, Text und strukturierte Daten, Bilddaten oder biomedizinische Daten. Es werden die Begriffe Datenanalyse, Data Mining, Knowledge Discovery sowie die KDD- und CRISP-DM-Prozesse eingeführt. Typische Datenanalyseprojekte lassen sich in mehrere Phasen gliedern: Vorbereitung, Vorverarbeitung, Analyse und Nachbereitung. Die einzelnen Kapitel dieses Buches behandeln die wichtigsten Methoden der Datenvorverarbeitung und -analyse: Daten und Relationen, Datenvorverarbeitung, Visualisierung, Korrelation, Regression, Prognose, Klassifikation und Clustering.
Thomas A. Runkler

2. Daten und Relationen

Zusammenfassung
Die Grundkonzepte der Datenanalyse werden anhand des bekannten Iris-Datensatzes eingeführt. Datenskalen (nominal, ordinal, Intervall, proportional) müssen berücksichtigt werden, weil bestimmte mathematische Operationen nur für gewisse Skalen geeignet sind. Numerische Daten können als Mengen, Vektoren oder Matrizen repräsentiert werden. Viele Datenanalyseverfahren basieren auf Unähnlichkeitsmaßen (z. B. Matrixnormen, Lebesgue/Minkowski-Normen) oder Ähnlichkeitsmaßen (z. B. Cosinus, Überlapp, Dice, Jaccard, Tanimoto). Sequenzen können mit Sequenzrelationen analysiert werden (z. B. Hamming, Levenshtein/Edit-Abstand). Aus kontinuierlichen analogen Signalen können Daten durch Abtastung und Quantisierung extrahiert werden. Die Nyquist-Bedingung ermöglicht eine Abtastung ohne Informationsverlust.
Thomas A. Runkler

3. Datenvorverarbeitung

Zusammenfassung
Daten aus realen Anwendungen enthalten meist Fehler und Rauschen, müssen skaliert und transformiert werden, und müssen oft aus unterschiedlichen und möglicherweise heterogenen Informationsquellen integriert werden. Fehler in Daten können systematischer oder zufälliger Natur sein. Systematische Fehler lassen sich oft korrigieren. Ausreißer sollten erkannt, entfernt oder korrigiert werden. Ausreißer und Rauschen können durch Filtern reduziert werden. Es wird ein Überblick über verschiedene Filtermethoden mit unterschiedlichen Eigenschaften und Komplexitäten gegeben: gleitende Maße und diskrete lineare Filter mit endlicher oder unendlicher Impulsantwort. Merkmale mit unterschiedlichen Wertebereichen werden meist standardisiert oder transformiert.
Thomas A. Runkler

4. Datenvisualisierung

Zusammenfassung
Visualisierungstechniken lassen sich sehr effektiv zur Datenanalyse einsetzen. Standardmethoden sind Diagramme und Streudiagramme. Zur Visualisierung hochdimensionaler Daten müssen Projektionen durchgeführt werden. Es werden lineare (Hauptkomponentenanalyse, Karhunen-Loève-Transformation, Singulärwertzerlegung, Eigenvektorprojektion, Hotelling-Transformation, mehrdimensionale Skalierung) und nichtlineare Projektionsmethoden (Sammon-Abbildung, Auto-Assoziator) vorgestellt. Histogrammverfahren erlauben die Schätzung und Visualisierung von Datenverteilungen. Die Spektralanalyse (Kosinus- und Sinustransformation, Amplituden- und Phasenspektren) ermöglicht die Analyse und Visualisierung von periodischen Daten (z. B. Zeitreihen).
Thomas A. Runkler

5. Korrelation

Zusammenfassung
Die Korrelationsanalyse quantifiziert den Zusammenhang zwischen Merkmalen. Die lineare Korrelationsanalyse ist robust und effizient, erfasst aber nur lineare Zusammenhänge. Die nichtlineare Korrelationsanalyse erfasst auch nichtlineare Zusammenhänge, muss aber sorgfältig parametriert werden. Als Beispiel für nichtlineare Korrelationsverfahren stellen wir den Chi-Quadrat-Test auf stochastische Unabhängigkeit vor, der im kontinuierlichen Fall mit Histogramm-Methoden kombiniert werden kann. Die nichtlineare Korrelation kann auch durch den Validierungsfehler von Regressionsmodellen quantifiziert werden. Stark korrelierte Merkmale stehen nicht unbedingt in kausalem Zusammenhang, sondern können auch durch Scheinkorrelationen bedingt sein. Die partielle Korrelationsanalyse erlaubt es, Effekte von Scheinkorrelationen herauszurechnen.
Thomas A. Runkler

6. Regression

Zusammenfassung
Die Regressionsanalyse schätzt die funktionalen Abhängigkeiten zwischen Merkmalen, um Zusammenhänge zu verstehen und gezielt zu steuern. Lineare Regressionsmodelle können effizient aus den Kovarianzen berechnet werden, sind aber auf lineare Zusammenhänge beschränkt. Durch Substitution lassen sich auch bestimmte nichtlineare Regressionsmodelle durch lineare Regression finden. Robuste Regression ist weniger empfindlich gegenüber Ausreißern. Eine wichtige Familie nichtlinearer Regressionsmodelle sind universelle Approximatoren. Wir stellen zwei bekannte Beispiele für universelle Approximatoren mit neuronalen Netzen vor: mehrschichtiges Perzeptron und Netze mit radialen Basisfunktionen. Mit universellen Approximatoren lassen sich beliebig kleine Trainingsfehler erreichen, aber für Modelle mit guter Generalisierungsfähigkeit werden geringe Validierungsfehler benötigt, die sich mit Kreuzvalidierungsverfahren bestimmen lassen. Durch Merkmalsselektion werden nur die relevanten Merkmale berücksichtigt, was zu einfacheren und oft genaueren Modellen führt.
Thomas A. Runkler

7. Prognose

Zusammenfassung
Zur Prognose zukünftiger Werte von Zeitreihen nehmen wir an, dass die Zeitreihe durch einen (möglicherweise verrauschten) deterministischen Prozess erzeugt wurde. Solche Prozesse können mit Mealy- oder Moore-Maschinen modelliert werden, wodurch sich rekurrente oder auto-regressive Modelle entwickeln lassen. Die Bestimmung der eigentlichen Prognosemodelle ist eine Regressionsaufgabe, bei der die Trainingsdaten durch endliche Entfaltung der Zeitreihe zusammengestellt werden. Zu den wichtigsten linearen Prognosemodellen gehören autoregressive Modelle (AR), generalisierte AR-Modelle mit gleitendem Mittelwert (ARMA) oder mit lokaler Regression (ARMAX). Zu den wichtigsten nichtlinearen Prognosemodellen gehören rekurrente neuronale Netze.
Thomas A. Runkler

8. Klassifikation

Zusammenfassung
Klassifikation ist ein überwachtes Lernverfahren , das markierte Daten verwendet, um Objekte zu Klassen zuzuordnen. Es werden falsch positive und falsch negative Fehler unterschieden und auf dieser Basis zahlreiche Klassifikationskriterien definiert. Oft werden Paare solcher Kriterien zur Bewertung von Klassifikatoren verwendet und z. B. in einem ROC- (engl. Receiver Operating Curve) oder PR-Diagramm (engl. Precision Recall) dargestellt. Unterschiedliche Klassifikatoren mit spezifischen Vor- und Nachteilen werden vorgestellt: der naive Bayes-Klassifikator, lineare Diskriminanzanalyse, die Supportvektormaschine auf Basis des Kernel-Tricks, nächste-Nachbarn-Klassifikatoren, lernende Vektorquantifizierung und hierarchische Klassifikation mit Regressionsbäumen.
Thomas A. Runkler

9. Clustering

Zusammenfassung
Clustering ist ein unüberwachtes Lernverfahren , bei dem unmarkierte Daten Clustern zugeordnet werden. Falls die zu clusternden Daten auch Klassen zugeordnet sind, so können die erhaltenen Clusterzugehörigkeiten möglicherweise den Klassenzugehörigkeiten entsprechen. Cluster- und Klassenzugehörigkeiten können jedoch auch verschieden sein. Cluster können mathematisch mit Hilfe von Mengen, Partitionsmatrizen und/oder Cluster-Prototypen spezifiziert werden. Sequenzielles Clustering (z. B. Single-Linkage, Complete-Linkage, Average-Linkage, Ward-Methode) lässt sich einfach implementieren, hat aber einen hohen Rechenaufwand. Partitionsbasiertes Clustering kann mit scharfen, unscharfen, possibilistischen oder robusten Clustermodellen definiert werden. Clusterprototypen können verschiedene geometrische Formen annehmen (z. B. Hypersphären, Ellipsoide, Linien, Hyperebenen, Kreise oder kompliziertere Formen). Relationale Clustermodelle finden Cluster in relationalen Daten. Dabei kann auch der Kernel-Trick angewendet werden. Die Clustertendenz gibt an, ob die Daten überhaupt Cluster enthalten. Clustervaliditätsmaße quantifizieren die Güte des Clusterergebnisses und ermöglichen, die Anzahl der Cluster abzuschätzen. Auch heuristische Methoden wie die selbstorganisierende Karte können zum Clustering verwendet werden.
Thomas A. Runkler

Backmatter

Weitere Informationen

Premium Partner

    Bildnachweise