Top

2021 | Book

Read chapter Read first chapter

Data Science

Grundlagen, Statistik und maschinelles Lernen

Author: Dr. Matthias Plaue

Publisher: Springer Berlin Heidelberg

Part of: Springer Professional "Wirtschaft+Technik" , Springer Professional "Technik" , Springer Professional "Wirtschaft"

About this book

Dieses Lehrbuch bietet eine gut verständliche Einführung in mathematische Konzepte und algorithmische Verfahren, die der Data Science zugrunde liegen. Es deckt hierfür wesentliche Teile der Datenorganisation, der deskriptiven und inferenziellen Statistik, der Wahrscheinlichkeitstheorie und des maschinellen Lernens ab.

Das Werk ermöglicht den Leserinnen und Lesern ein tiefes und grundlegendes Verständnis der Konzepte durch klare und mathematisch fundierte Vermittlung der Inhalte. Darüber hinaus stellt es durch zahlreiche, anhand realer Daten erstellter Anwendungsbeispiele einen starken Praxisbezug her. Dadurch ist es besonders für Lehrende und Studierende an technischen Hochschulen geeignet, bietet aber auch Quereinsteigenden mit mathematischem Grundwissen einen guten Einstieg und Überblick

Frontmatter

Kapitel 1. Einführung

Zusammenfassung

Daten sind gemäß internationalem Technologiestandard [1] eine „formalisierte Darstellung von Informationen, welche für die Kommunikation, Interpretation oder Verarbeitung geeignet sind“. Eine weitere Charakterisierung liefert der Duden [2]: Daten sind „(durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde“.

Matthias Plaue

Grundlagen

Frontmatter

Kapitel 2. Elemente der Datenorganisation

Zusammenfassung

Als Datenbestand bezeichnen wir alle erfassten, gespeicherten und für den Zugriff und die Verarbeitung zur Verfügung stehenden Daten. Große Datenbestände sind nicht selten heterogen: Sie entstehen durch Datenintegration, dem Zusammenführen von Daten aus verschiedenen und verschiedenartigen Datenquellen. Bei der Planung des Aufbaus eines großen und/oder heterogenen Datenbestands (Schlagwort: Big Data) sowie der Sicherstellung der Qualität der Daten ergeben sich besondere Herausforderungen, auf die wir in diesem Kapitel eingehen.

Matthias Plaue

Kapitel 3. Deskriptive Statistik

Zusammenfassung

Wir haben durch unsere alltägliche Erfahrung ein intuitives Verständnis davon, welche Körpergröße für Menschen in der Bevölkerung typisch ist: In weiten Teilen der Welt sind erwachsene Menschen typischerweise zwischen 1,60 m und 1,80 m groß, während Menschen mit einer Körpergröße von mehr als zwei Metern eher die Seltenheit sind.

Matthias Plaue

Stochastik

Frontmatter

Kapitel 4. Wahrscheinlichkeitstheorie

Zusammenfassung

Mittels der deskriptiven Statistik können wir detaillierte Aussagen über die Häufigkeitsverteilung einer Stichprobe anstellen. Eine wesentliche Erkenntnis ist, dass diese Aussagen oft Rückschlüsse auf die Grundgesamtheit zulassen. Beispielsweise können wir allein aufgrund der Datenlage folgern, dass ein Mensch nicht auf eine Größe von drei Metern heranwachsen kann.

Matthias Plaue

Kapitel 5. Inferenzstatistik

Zusammenfassung

Eine Grundidee der Inferenzstatistik oder schließenden Statistik besteht in der Annahme, dass Ausprägungen von Merkmalen in Stichproben Realisierungen von Zufallsvariablen sind. Bei einem Münzwurf ist zum Beispiel die Annahme, dass der Ausgang des Zufallsexperiments durch eine diskrete Zufallsvariable X₁ bestimmt wird, die mit gleicher Wahrscheinlichkeit die Werte Null („Zahl“) oder Eins („Kopf“) annimmt: Pr(X₁ = 0) = Pr(X₁ = 1) = 1/2. Wird das Experiment unter identischen Bedingungen wiederholt, so können wir annehmen, dass dessen Ausgang von einer von X₁ unabhängigen Stichprobenvariablen X₂ beschrieben werden kann, welche dieselbe Verteilung aufweist: Pr(X₂ = 0) = Pr(X₂ = 1) = 1/2.

Matthias Plaue

Kapitel 6. Multivariate Statistik

Zusammenfassung

Mit der Vorstellung von Assoziationsmaßen und Regressionsverfahren haben wir bereits einen ersten Einblick in multivariate Verfahren gewonnen. Multivariate Methoden ermöglichen die gemeinsame Untersuchung aller relevanten Merkmale und ihrer Beziehungen untereinander – mit dem Ziel ein möglichst vollständiges Bild der Daten zu erfassen.

Matthias Plaue

Maschinelles Lernen

Frontmatter

Kapitel 7. Überwachtes maschinelles Lernen

Zusammenfassung

Gemäß internationalem Technologiestandard ist ein Algorithmus [1] eine „endliche geordnete Menge wohldefinierter Regeln für die Lösung eines Problems“.

Matthias Plaue

Kapitel 8. Unüberwachtes maschinelles Lernen

Zusammenfassung

Ziel von Verfahren des überwachten maschinellen Lernens ist die Ableitung einer Entscheidungsregel f : \(\chi \) \(\to \) \(\mathcal{Y}\) anhand eines Trainingsdatensatzes (\(\chi \) \(\times \mathcal{Y}\))^N. Im Gegensatz dazu ist bei Verfahren des unüberwachten Lernens keines der Merkmale des zu analysierenden Datensatzes a priori als Zielgröße oder Klassenlabel ausgezeichnet.

Matthias Plaue

Kapitel 9. Maschinelles Lernen in der Anwendung

Zusammenfassung

Datenwissenschaftliche und statistische Verfahren im Allgemeinen und Methoden des maschinellen Lernens im Besonderen finden breite Anwendung in vielfältigen Bereichen von Wissenschaft und Technik.

Matthias Plaue

Kapitel 10. Ergänzende Literatur

Zusammenfassung

Die zum Verständnis des vorliegenden Buches notwendigen mathematischen Grundlagen werden beispielsweise in den ersten zwei Bänden der Reihe „Mathematik für das Bachelorstudium“, welche von Mike Scherfner und mir verfasst sind, vermittelt [1, 2]. Die dortige Notation von Formeln stimmt mit der hier verwendeten in weiten Teilen überein. Natürlich kann auch auf bewährte Klassiker zurückgegriffen werden, etwa auf „den Fischer“ [3] für lineare Algebra oder „den Forster“ für Analysis [4, 5].

Matthias Plaue

Backmatter

Title: Data Science
Author: Dr. Matthias Plaue
Publisher: Springer Berlin Heidelberg
Electronic ISBN: 978-3-662-63489-9
Print ISBN: 978-3-662-63488-2
DOI: https://doi.org/10.1007/978-3-662-63489-9

Springer Professional

Data Science

Grundlagen, Statistik und maschinelles Lernen

About this book

Table of Contents

Frontmatter

Kapitel 1. Einführung

Grundlagen

Frontmatter

Kapitel 2. Elemente der Datenorganisation

Kapitel 3. Deskriptive Statistik

Stochastik

Frontmatter

Kapitel 4. Wahrscheinlichkeitstheorie

Kapitel 5. Inferenzstatistik

Kapitel 6. Multivariate Statistik

Maschinelles Lernen

Frontmatter

Kapitel 7. Überwachtes maschinelles Lernen

Kapitel 8. Unüberwachtes maschinelles Lernen

Kapitel 9. Maschinelles Lernen in der Anwendung

Kapitel 10. Ergänzende Literatur

Backmatter

Premium Partner