Skip to main content
main-content

Über dieses Buch

Dieses Lehrbuch bietet eine gut verständliche Einführung in mathematische Konzepte und algorithmische Verfahren, die der Data Science zugrunde liegen. Es deckt hierfür wesentliche Teile der Datenorganisation, der deskriptiven und inferenziellen Statistik, der Wahrscheinlichkeitstheorie und des maschinellen Lernens ab.

Das Werk ermöglicht den Leserinnen und Lesern ein tiefes und grundlegendes Verständnis der Konzepte durch klare und mathematisch fundierte Vermittlung der Inhalte. Darüber hinaus stellt es durch zahlreiche, anhand realer Daten erstellter Anwendungsbeispiele einen starken Praxisbezug her. Dadurch ist es besonders für Lehrende und Studierende an technischen Hochschulen geeignet, bietet aber auch Quereinsteigenden mit mathematischem Grundwissen einen guten Einstieg und Überblick

Inhaltsverzeichnis

Frontmatter

Kapitel 1. Einführung

Zusammenfassung
Daten sind gemäß internationalem Technologiestandard [1] eine „formalisierte Darstellung von Informationen, welche für die Kommunikation, Interpretation oder Verarbeitung geeignet sind“. Eine weitere Charakterisierung liefert der Duden [2]: Daten sind „(durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde“.
Matthias Plaue

Grundlagen

Frontmatter

Kapitel 2. Elemente der Datenorganisation

Zusammenfassung
Als Datenbestand bezeichnen wir alle erfassten, gespeicherten und für den Zugriff und die Verarbeitung zur Verfügung stehenden Daten. Große Datenbestände sind nicht selten heterogen: Sie entstehen durch Datenintegration, dem Zusammenführen von Daten aus verschiedenen und verschiedenartigen Datenquellen. Bei der Planung des Aufbaus eines großen und/oder heterogenen Datenbestands (Schlagwort: Big Data) sowie der Sicherstellung der Qualität der Daten ergeben sich besondere Herausforderungen, auf die wir in diesem Kapitel eingehen.
Matthias Plaue

Kapitel 3. Deskriptive Statistik

Zusammenfassung
Wir haben durch unsere alltägliche Erfahrung ein intuitives Verständnis davon, welche Körpergröße für Menschen in der Bevölkerung typisch ist: In weiten Teilen der Welt sind erwachsene Menschen typischerweise zwischen 1,60 m und 1,80 m groß, während Menschen mit einer Körpergröße von mehr als zwei Metern eher die Seltenheit sind.
Matthias Plaue

Stochastik

Frontmatter

Kapitel 4. Wahrscheinlichkeitstheorie

Zusammenfassung
Mittels der deskriptiven Statistik können wir detaillierte Aussagen über die Häufigkeitsverteilung einer Stichprobe anstellen. Eine wesentliche Erkenntnis ist, dass diese Aussagen oft Rückschlüsse auf die Grundgesamtheit zulassen. Beispielsweise können wir allein aufgrund der Datenlage folgern, dass ein Mensch nicht auf eine Größe von drei Metern heranwachsen kann.
Matthias Plaue

Kapitel 5. Inferenzstatistik

Zusammenfassung
Eine Grundidee der Inferenzstatistik oder schließenden Statistik besteht in der Annahme, dass Ausprägungen von Merkmalen in Stichproben Realisierungen von Zufallsvariablen sind. Bei einem Münzwurf ist zum Beispiel die Annahme, dass der Ausgang des Zufallsexperiments durch eine diskrete Zufallsvariable X1 bestimmt wird, die mit gleicher Wahrscheinlichkeit die Werte Null („Zahl“) oder Eins („Kopf“) annimmt: Pr(X1 = 0) = Pr(X1 = 1) = 1/2. Wird das Experiment unter identischen Bedingungen wiederholt, so können wir annehmen, dass dessen Ausgang von einer von X1 unabhängigen Stichprobenvariablen X2 beschrieben werden kann, welche dieselbe Verteilung aufweist: Pr(X2 = 0) = Pr(X2 = 1) = 1/2.
Matthias Plaue

Kapitel 6. Multivariate Statistik

Zusammenfassung
Mit der Vorstellung von Assoziationsmaßen und Regressionsverfahren haben wir bereits einen ersten Einblick in multivariate Verfahren gewonnen. Multivariate Methoden ermöglichen die gemeinsame Untersuchung aller relevanten Merkmale und ihrer Beziehungen untereinander – mit dem Ziel ein möglichst vollständiges Bild der Daten zu erfassen.
Matthias Plaue

Maschinelles Lernen

Frontmatter

Kapitel 7. Überwachtes maschinelles Lernen

Zusammenfassung
Gemäß internationalem Technologiestandard ist ein Algorithmus [1] eine „endliche geordnete Menge wohldefinierter Regeln für die Lösung eines Problems“.
Matthias Plaue

Kapitel 8. Unüberwachtes maschinelles Lernen

Zusammenfassung
Ziel von Verfahren des überwachten maschinellen Lernens ist die Ableitung einer Entscheidungsregel f : \(\chi \) \(\to \) \(\mathcal{Y}\) anhand eines Trainingsdatensatzes (\(\chi \) \(\times \mathcal{Y}\))N. Im Gegensatz dazu ist bei Verfahren des unüberwachten Lernens keines der Merkmale des zu analysierenden Datensatzes a priori als Zielgröße oder Klassenlabel ausgezeichnet.
Matthias Plaue

Kapitel 9. Maschinelles Lernen in der Anwendung

Zusammenfassung
Datenwissenschaftliche und statistische Verfahren im Allgemeinen und Methoden des maschinellen Lernens im Besonderen finden breite Anwendung in vielfältigen Bereichen von Wissenschaft und Technik.
Matthias Plaue

Kapitel 10. Ergänzende Literatur

Zusammenfassung
Die zum Verständnis des vorliegenden Buches notwendigen mathematischen Grundlagen werden beispielsweise in den ersten zwei Bänden der Reihe „Mathematik für das Bachelorstudium“, welche von Mike Scherfner und mir verfasst sind, vermittelt [1, 2]. Die dortige Notation von Formeln stimmt mit der hier verwendeten in weiten Teilen überein. Natürlich kann auch auf bewährte Klassiker zurückgegriffen werden, etwa auf „den Fischer“ [3] für lineare Algebra oder „den Forster“ für Analysis [4, 5].
Matthias Plaue

Backmatter

Weitere Informationen

Premium Partner