Skip to main content
Top

2021 | Book

Data Science

Grundlagen, Statistik und maschinelles Lernen

Author: Dr. Matthias Plaue

Publisher: Springer Berlin Heidelberg

insite
SEARCH

About this book

Dieses Lehrbuch bietet eine gut verständliche Einführung in mathematische Konzepte und algorithmische Verfahren, die der Data Science zugrunde liegen. Es deckt hierfür wesentliche Teile der Datenorganisation, der deskriptiven und inferenziellen Statistik, der Wahrscheinlichkeitstheorie und des maschinellen Lernens ab.

Das Werk ermöglicht den Leserinnen und Lesern ein tiefes und grundlegendes Verständnis der Konzepte durch klare und mathematisch fundierte Vermittlung der Inhalte. Darüber hinaus stellt es durch zahlreiche, anhand realer Daten erstellter Anwendungsbeispiele einen starken Praxisbezug her. Dadurch ist es besonders für Lehrende und Studierende an technischen Hochschulen geeignet, bietet aber auch Quereinsteigenden mit mathematischem Grundwissen einen guten Einstieg und Überblick

Table of Contents

Frontmatter
Kapitel 1. Einführung
Zusammenfassung
Daten sind gemäß internationalem Technologiestandard [1] eine „formalisierte Darstellung von Informationen, welche für die Kommunikation, Interpretation oder Verarbeitung geeignet sind“. Eine weitere Charakterisierung liefert der Duden [2]: Daten sind „(durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde“.
Matthias Plaue

Grundlagen

Frontmatter
Kapitel 2. Elemente der Datenorganisation
Zusammenfassung
Als Datenbestand bezeichnen wir alle erfassten, gespeicherten und für den Zugriff und die Verarbeitung zur Verfügung stehenden Daten. Große Datenbestände sind nicht selten heterogen: Sie entstehen durch Datenintegration, dem Zusammenführen von Daten aus verschiedenen und verschiedenartigen Datenquellen. Bei der Planung des Aufbaus eines großen und/oder heterogenen Datenbestands (Schlagwort: Big Data) sowie der Sicherstellung der Qualität der Daten ergeben sich besondere Herausforderungen, auf die wir in diesem Kapitel eingehen.
Matthias Plaue
Kapitel 3. Deskriptive Statistik
Zusammenfassung
Wir haben durch unsere alltägliche Erfahrung ein intuitives Verständnis davon, welche Körpergröße für Menschen in der Bevölkerung typisch ist: In weiten Teilen der Welt sind erwachsene Menschen typischerweise zwischen 1,60 m und 1,80 m groß, während Menschen mit einer Körpergröße von mehr als zwei Metern eher die Seltenheit sind.
Matthias Plaue

Stochastik

Frontmatter
Kapitel 4. Wahrscheinlichkeitstheorie
Zusammenfassung
Mittels der deskriptiven Statistik können wir detaillierte Aussagen über die Häufigkeitsverteilung einer Stichprobe anstellen. Eine wesentliche Erkenntnis ist, dass diese Aussagen oft Rückschlüsse auf die Grundgesamtheit zulassen. Beispielsweise können wir allein aufgrund der Datenlage folgern, dass ein Mensch nicht auf eine Größe von drei Metern heranwachsen kann.
Matthias Plaue
Kapitel 5. Inferenzstatistik
Zusammenfassung
Eine Grundidee der Inferenzstatistik oder schließenden Statistik besteht in der Annahme, dass Ausprägungen von Merkmalen in Stichproben Realisierungen von Zufallsvariablen sind. Bei einem Münzwurf ist zum Beispiel die Annahme, dass der Ausgang des Zufallsexperiments durch eine diskrete Zufallsvariable X1 bestimmt wird, die mit gleicher Wahrscheinlichkeit die Werte Null („Zahl“) oder Eins („Kopf“) annimmt: Pr(X1 = 0) = Pr(X1 = 1) = 1/2. Wird das Experiment unter identischen Bedingungen wiederholt, so können wir annehmen, dass dessen Ausgang von einer von X1 unabhängigen Stichprobenvariablen X2 beschrieben werden kann, welche dieselbe Verteilung aufweist: Pr(X2 = 0) = Pr(X2 = 1) = 1/2.
Matthias Plaue
Kapitel 6. Multivariate Statistik
Zusammenfassung
Mit der Vorstellung von Assoziationsmaßen und Regressionsverfahren haben wir bereits einen ersten Einblick in multivariate Verfahren gewonnen. Multivariate Methoden ermöglichen die gemeinsame Untersuchung aller relevanten Merkmale und ihrer Beziehungen untereinander – mit dem Ziel ein möglichst vollständiges Bild der Daten zu erfassen.
Matthias Plaue

Maschinelles Lernen

Frontmatter
Kapitel 7. Überwachtes maschinelles Lernen
Zusammenfassung
Gemäß internationalem Technologiestandard ist ein Algorithmus [1] eine „endliche geordnete Menge wohldefinierter Regeln für die Lösung eines Problems“.
Matthias Plaue
Kapitel 8. Unüberwachtes maschinelles Lernen
Zusammenfassung
Ziel von Verfahren des überwachten maschinellen Lernens ist die Ableitung einer Entscheidungsregel f : \(\chi \) \(\to \) \(\mathcal{Y}\) anhand eines Trainingsdatensatzes (\(\chi \) \(\times \mathcal{Y}\))N. Im Gegensatz dazu ist bei Verfahren des unüberwachten Lernens keines der Merkmale des zu analysierenden Datensatzes a priori als Zielgröße oder Klassenlabel ausgezeichnet.
Matthias Plaue
Kapitel 9. Maschinelles Lernen in der Anwendung
Zusammenfassung
Datenwissenschaftliche und statistische Verfahren im Allgemeinen und Methoden des maschinellen Lernens im Besonderen finden breite Anwendung in vielfältigen Bereichen von Wissenschaft und Technik.
Matthias Plaue
Kapitel 10. Ergänzende Literatur
Zusammenfassung
Die zum Verständnis des vorliegenden Buches notwendigen mathematischen Grundlagen werden beispielsweise in den ersten zwei Bänden der Reihe „Mathematik für das Bachelorstudium“, welche von Mike Scherfner und mir verfasst sind, vermittelt [1, 2]. Die dortige Notation von Formeln stimmt mit der hier verwendeten in weiten Teilen überein. Natürlich kann auch auf bewährte Klassiker zurückgegriffen werden, etwa auf „den Fischer“ [3] für lineare Algebra oder „den Forster“ für Analysis [4, 5].
Matthias Plaue
Backmatter
Metadata
Title
Data Science
Author
Dr. Matthias Plaue
Copyright Year
2021
Publisher
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-63489-9
Print ISBN
978-3-662-63488-2
DOI
https://doi.org/10.1007/978-3-662-63489-9

Premium Partner