Skip to main content
Top

2000 | Book

Information Mining

Methoden, Algorithmen und Anwendungen intelligenter Datenanalyse

Author: Thomas A. Runkler

Publisher: Vieweg+Teubner Verlag

Book Series : Computational Intelligence

insite
SEARCH

Table of Contents

Frontmatter
Kapitel 1. Der Datenanalyse—Prozess
Zusammenfassung
Der Fokus dieses Buches ist die Analyse großer Datenmengen. Typische Beispiele für Quellen solcher Datenmengen sind
  • industrielle Prozessdaten: Zur Analyse der Altpapieraufbereitung in der Papierfabrik Kühler und Niethammer in Kriebstein stehen an jeder der 8 Deinkingzellen jeweils 54 Sensoren zur Verfügung, die pro Tag 9000 Messwerte liefern. Das sind insgesamt 3888000 Messwerte pro Tag.
  • Umsatzdatenbanken: Das amerikanische Handelsunternehmen WalMart führt eine Scannerkassen—Warenkorbanalyse durch, bei der etwa 20 Millionen Transaktionen pro Tag ausgewertet werden. Für die Analyse wurde eine Datenbank in der Größe von 24 TBytes erstellt.
  • Molekularbiologie: Im Human Genome Database Project wird versucht, den genetischen Code des Menschen zu entschlüsseln. Das menschliche Genom enthält etwa 60000–80000 Gene, das sind insgesamt etwa 3 Milliarden DNA—Basen.
  • Bilder: Das Earth Observing System der NASA nimmt mit tieffliegenden Satelliten Oberflächenbilder der Erde auf. Die aufgenommene Datenrate beträgt 50 GBytes pro Stunde.
  • Textinformationen: Das Internet ermöglicht die Verbreitung von Nachrichten und Mitteilungen in nie gekannter Menge und Geschwindigkeit. Die Flut an Informationen ist inzwischen kaum mehr vom Benutzer zu verarbeiten, so dass zahlreiche Index- und Suchmaschinen sowie Filterprogramme für die elektronische Post eingesetzt werden.
Thomas A. Runkler
Kapitel 2. Datencharakteristika und Fehlerquellen
Zusammenfassung
Der Datenbegriff aus dem vorhergehenden Kapitel ist sehr allgemein, Daten können jedoch sehr unterschiedliche Charakteristika haben. Z.B. können Daten numerisch oder nichtnumerisch sein, nichtnumerische Daten können Text oder allgemeine Objekte enthalten, numerische Daten können auf unterschiedlichen Skalen messbar sein, sie können Abtastwerte von Zeitsignalen sein und können quantisierte oder kontinuierliche Werte besitzen. Diese unterschiedlichen Charakteristika und ihre Konsequenzen für die Datenanalyse sind im Folgenden beschrieben.
Thomas A. Runkler
Kapitel 3. Datenvorverarbeitung
Zusammenfassung
Die in praktischen Anwendungen zur Verfügung stehenden Daten sind meist Rohdaten, die oft fehlerbehaftet, verrauscht, ungünstig skaliert und verteilt gespeichert sind. Zur Datenanalyse müssen solche Rohdaten zunächst vorverarbeitet werden, was einen nicht unerheblichen Arbeits¡ª und Zeitaufwand innerhalb von Datenanalyseprojekten darstellt. Zu den wichtigsten Aufgaben dieser Datenvorverarbeitung gehört die Erkennung und Behandlung von Fehlern, Ausreißern und Rauscheffekten, sowie die Aufbereitung der Daten durch Standardisierung und gegebenenfalls die Zusammenfassung aller benötigten Daten in einer einzigen Datenmatrix. Falls die Daten als Zeitreihen vorliegen, lassen sich Ausreißer und Rauschen durch Filtermethoden verringern. Abbildung 3.1 zeigt einige der wichtigsten Familien von Filtermethoden, die in diesem Kapitel beschrieben werden.
Thomas A. Runkler
Kapitel 4. Datenvisualisierung
Zusammenfassung
Das beste bekannte Werkzeug zur Analyse von Datensätzen ist das menschliche Auge. Bei der Datenanalyse spielt daher die Visualisierung, d.h. die grafische Darstellung der Daten, eine große Rolle [32]. Sowohl die Visualisierung als auch die (automatische) Datenanalyse kann mit linearen oder nichtlinearen Methoden erfolgen. Abbildung 4.1 gibt eine Übersicht über die in diesem und im nächsten Kapitel beschriebenen Methoden der Visualisierung und Datenanalyse.
Thomas A. Runkler
Kapitel 5. Datenanalyse und Modellierung
Zusammenfassung
Zur automatischen Analyse von Daten werden unter anderem Methoden der Statistik [47, 48, 57], der explorativen Statistik [152], der künstlichen Intelligenz [24], der Mustererkennung [13, 32, 138], der Clusteranalyse [18] und der neuronale Netze [50] eingesetzt. Von besonderer Bedeutung sind Methoden, die Strukturen in den Daten analysieren und erkennen. Hierzu gehören Methoden zum automatischen Entwurf von Klassifikatoren sowie Methoden zur Erkennung von Clusterstrukturen. Klassifikatoren oder Clusterstrukturen können hierarchisch oder flach repräsentiert werden, die Klassen- oder Clustergebiete können einfache oder komplexe Formen besitzen und scharf abgegrenzt oder eher unscharf sein. Die Menge der bekannten Klassifikations- und Clusteralgorithmen ist entsprechend vielfältig. Abbildung 5.1 gibt eine Übersicht über die in diesem Kapitel beschriebenen Algorithmen.
Thomas A. Runkler
Kapitel 6. Anwendungsbeispiele
Zusammenfassung
Einige typische Beispiele für Anwendungen der Datenanalyse wie die industrielle Prozessanalyse, die Auswertung von Umsatzdatenbanken, Molekularbiologie, Bild- und Textverarbeitung wurden bereits im ersten Kapitel genannt. In diesem Kapitel werden vier ausgewählte reale Anwendungsbeispiele aus Prozesstechnik, Management vernetzter Systeme, Bildverarbeitung und Marketing detailliert dargestellt und gezeigt, wie sich die in den vorangegangenen Kapiteln beschriebenen Methoden zur Datenanalyse einsetzen lassen.
Thomas A. Runkler
Kapitel 7. Zusammenfassung
Zusammenfassung
Ziel der Datenanalyse ist es, aus großen Datenmengen Wissen zu extrahieren, d.h. allgemein gültige, nicht triviale, neue, nützliche und verständliche Muster zu erkennen. Für diese Wissensextraktion wurde ein mehrstufiger Datenanalyse-Prozess dargestellt, an dem sich die Gliederung dieses Buches orientiert.
Thomas A. Runkler
Backmatter
Metadata
Title
Information Mining
Author
Thomas A. Runkler
Copyright Year
2000
Publisher
Vieweg+Teubner Verlag
Electronic ISBN
978-3-322-89158-7
Print ISBN
978-3-528-05741-1
DOI
https://doi.org/10.1007/978-3-322-89158-7