Skip to main content
Top

2019 | Book

Moderne Datenanalyse mit R

Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren

insite
SEARCH

About this book

Die Kaufempfehlung, die Ihnen ein Webstore ausspricht, die Einschätzung, welcher Kunde kreditwürdig ist, oder die Analyse der Werttreiber von Immobilien – alle diese Beispiele aus dem heutigen Leben sind Ergebnis moderner Verfahren der Datenanalyse. Dieses Buch führt in solche statistische Verfahren anhand der Programmiersprache R ein.
Ziel ist es, Leser mit der Art und Weise vertraut zu machen, wie führende Organisationen und Praktiker angewandte Statistik heute einsetzen. Weil sich mit der Digitalisierung auch die statistischen Verfahren verändert haben, vermittelt der Autor neben klassischen Analysemethoden wie Regression auch moderne Methoden wie Textmining und Random-Forest-Modelle. Dabei sind die Inhalte des Buchs durchgehend so aufbereitet, dass sie auch für Leser ohne umfangreiche mathematische Vorkenntnisse verständlich sind. Anhand von Fallbeispielen und Übungen werden die Leser durch alle Phasen der Datenanalyse geführt: Sie lernen, wie Daten eingelesen, aufbereitet, visualisiert, modelliert und kommuniziert werden können. Dabei wird vor allem die Aufbereitung, Umformung und Prüfung der Daten ausführlicher als in anderen Publikationen behandelt, da dieser Teil in der Praxis oft einen wesentlichen Teil des Aufwands ausmacht. Aber auch die Visualisierung bekommt viel Raum, denn gute Diagramme ermöglichen Einblicke, die Zahlen und Worte verbergen.Mit seinem praxisorientierten Ansatz will das Buch dazu befähigen,alle grundlegenden Schritte eines Datenanalyseprojekts durchzuführen,
Daten kompetent in R zu bearbeiten,
simulationsbasierte Inferenzstatistik anzuwenden und kritisch zu hinterfragen,
klassische und moderne Vorhersagemethoden anzuwenden und
betriebswirtschaftliche Fragestellungen mittels datengetriebener Vorhersagemodelle zu beantworten.
Sowohl Anwender ohne statistisches Grundlagenwissen als auch Nutzer mit Vorerfahrung lesen dieses Buch mit Gewinn. In verständlicher Sprache und anhand von anschaulichen Beispielen zeigt der Autor, wie moderne Datenanalyse heute funktioniert.

Table of Contents

Frontmatter

Rahmen

Frontmatter
1. Statistik heute
Zusammenfassung
Dieses einführende Kapitel stellt zunächst die fünf typischen Schritte einer Datenanalyse dar. Dann werden einschlägige Begriffe wie Datenanalyse, Statistik und Data Science voneinander abgegrenzt. Im Anschluss werden elementare Wissensgebiete und Begriffe erläutert. Abschließend wird anhand des Begriffspaars „Signal und Rauschen“ die Frage diskutiert, was die Aufgabe von Wissenschaft – und im Besonderen der Datenanalyse – ist.
Sebastian Sauer
2. Hallo, R
Zusammenfassung
Zu Beginn des Kapitels steht ein kurzer Abriss der Geschichte von R. Dann wird die Frage: „Warum R?“ erörtert: Was spricht dafür, Daten mit Hilfe von R zu analysieren? Was kann R, was z.B. Excel nicht bietet? R hat aber auch Nachteile; manch einer stöhnt: „Warum, R?“ Diese Nachteile werden im letzten Abschnitt des Kapitels preisgegeben.
Sebastian Sauer
3. R starten
Zusammenfassung
Zuerst wird besprochen, wie man R installiert und mit welchen Problemen dabei zu rechnen ist. Dann wird erklärt, was R-Pakete und R-Skript-Dateien sind und warum diese wichtig sind. Im Anschluss wird gezeigt, wie man das einem Befehl zugehörige Paket identifiziert. Dann werden die in diesem Buch verwendeten Daten vorgestellt. Schließlich wird RStudio als grafische Oberfläche für R eingeführt; zum Abschluss finden sich Hinweise, was man tut, wenn man mit seinem R-Latein am Ende ist bzw. wo und wie man Hilfe zu R-Fragen findet.
Sebastian Sauer
4. Erstkontakt
Zusammenfassung
Zu Beginn erfahren Sie, dass (und in welcher Hinsicht) R pingelig ist. Im Anschluss folgt einiges Handwerkszeug in R: Variablen zuweisen und auslesen, Funktionen aufrufen, logische Prüfungen durchführen sowie vektorielles Rechnen.
Sebastian Sauer

Daten einlesen

Frontmatter
5. Datenstrukturen
Zusammenfassung
Als Erstes lernen Sie wesentliche Datenstrukturen (Objektarten) von R kennen. Ein wichtiger Gedanke dabei ist, zu verstehen, warum Vektoren die zentrale Datenstruktur in R stellen. Sie lernen weiter, dass Dataframes die gebräuchlichste Datenstruktur in R sind und dass Dataframes auf Vektoren basieren. Nachdem die zentralen Objekttypen vorgestellt sind, wird erläutert, wie diese jeweils auszulesen (zu indizieren) sind. Abschließen folgend einige Richtlinien zur Namensgebung von Objekten in R.
Sebastian Sauer
6. Datenimport und -export
Zusammenfassung
Wie bekomme ich Daten in R hinein? Das ist die erste Frage dieses Kapitels. Verschiedene Formate wie CSV und XLS(X) werden berücksichtigt. In dem Zusammenhang werden einige Aspekte der Kodierung von Textdateien erwähnt. Wie bekomme ich Daten aus R heraus? Das ist die zweite (und letzte) Frage, die in diesem Kapitel beantwortet wird.
Sebastian Sauer

Daten aufbereiten

Frontmatter
7. Datenjudo
Zusammenfassung
Dieses recht umfangreiche Kapitel beschäftigt sich primär mit der Datenaufbereitung, so wie sie mit dem R-Paket „dplyr“ durchgeführt wird. Dieses R-Paket basiert auf zwei Prinzipien: Dem „Lego-Prinzip“ und dem „Pfeifen-Prinzip“. Nach dem Lego-Prinzip ist eine komplexe Tätigkeit auf eine Reihe einfacher(er) Bausteine zurückzuführen. Bei der Datenanalyse ist dieses Prinzip gut anwendbar. Das Pfeifen-Prinzip spricht sich gegen verschachtelte Befehle aus und schlägt vor, diese stattdessen seriell abzuarbeiten. Das serielle Abarbeiten macht die Syntax verständlicher und lesbarer. Neben den Prinzipien von dplyr wird das Zusammenführen von Dataframes (Joining) besprochen.
Sebastian Sauer
8. Deskriptive Statistik
Zusammenfassung
Zu Beginn werden einige wesentliche Gedanken der deskriptiven Statistik illustriert. Im Anschluss finden sich R-Befehle, um gängige univariate Statistiken zu berechnen. Der letzte Abschnitt erläutert zuerst grob, was man unter einer Korrelation versteht, und zeigt danach passende R-Befehle.
Sebastian Sauer
9. Praxisprobleme der Datenaufbereitung
Zusammenfassung
Dieses Kapitel stellt eine Auswahl typischer Probleme vor, auf die man beim Arbeiten mit echten Datensätzen immer wieder trifft. Dazu gehören der Umgang mit fehlenden Werten genauso wie das Umkodieren von Werten oder das Zusammenfassen von Zeilen eines Dataframes zu einem Wert.
Sebastian Sauer
10. Fallstudie: Datenjudo
Zusammenfassung
Dieses Kapitel wendet das bisher Gelernte im Rahmen einer Fallstudie an. Ziel ist es, einige Auffälligkeiten in den Verspätungen der New Yorker Flughäfen zu analysieren. So werden Fragen beantwortet wie: „Welche Airline hat die größten Verspätungen?“, „Was ist die mittlere Verspätung pro Flughafen?“, oder: „Womit hängt die Verspätung eines Flugs zusammen?“ Neben deskriptiven Statistiken werden – im Vorgriff auf die folgenden Kapitel – einige Techniken der Datenvisualisierung angewandt.
Sebastian Sauer

Daten visualisieren

Frontmatter
11. Datenvisualisierung mit ggplot2
Zusammenfassung
Ein Bild sagt mehr als 1000 Worte? Oder vielleicht doch nicht? Diese Fragen werden zu Beginn – wie sollte es anders sein – anhand einer Datenvisualisierung erörtert. Dann lernen Sie einige der umfangreichen Funktionen des Grafikpakets ggplot2. Einfache pragmatische Aspekte stehen im Vordergrund: Welche Diagramme bieten sich für welchen Zweck an? Was ist die Logik der Syntax von ggplot2? Wie kann man die bereits erlernten Techniken des Datenjudos sinnvoll für die Visualisierung verwenden?
Sebastian Sauer
12. Fortgeschrittene Themen der Visualisierung
Zusammenfassung
In diesem Kapitel wird eine Auswahl an fortgeschritteneren Fragen der Datenvisualisierung erörtert. Zunächst wird die Logik der Farbwahl in R und insbesondere in ggplot2 erklärt; dabei erfahren Sie, wie verschiedene Farbpaletten gewählt werden können. Weiter lernen Sie, wie man Details eines ggplot2-Diagramms ändern kann, z.B. die Schriftgröße der Achsenbeschriftung. Abschließend folgt eine Einführung in die Erstellung interaktiver Diagramme, d.h. Diagramme, die sich je nach Eingaben des Nutzers verändern.
Sebastian Sauer
13. Fallstudie: Visualisierung
Zusammenfassung
In diesem Kapitel wird die Visualisierung der Ergebnisse einer (quantitativen) Umfrage demonstriert. Typischerweise finden für solcherlei Daten Balkendiagramme Verwendung: Es werden Häufigkeiten pro Antwortstufe einer Frage (eines Items) visualisiert. Entsprechend stehen Fragen rund um Balkendiagramme im Mittelpunkt. Etwa: Wie kann man Zahlen zu einem Balkendiagramm hinzufügen? Wie kann man die Beschriftung der Achsen ändern, um die Namen der Items mit mehr Text anzuführen? Wie kann man die Reihenfolge von Balken innerhalb eines Diagramms ändern?
Sebastian Sauer
14. Geovisualisierung
Zusammenfassung
Dieses Kapitel zeigt einführend, wie man Karten in R mit ggplot2 erzeugt, z.B. eine Karte der Postleitzahlengebiete Deutschlands. Ein zentrales Anwendungsbeispiel ist, die Land- oder Wahlkreisen einer Karte nach soziodemografischen Attributen wie Arbeitslosigkeit zu färben. Ein ausführlicheres Anwendungsbeispiel zeigt, wie mächtig solche Analysen sein können, da man über geopolitische Verwaltungseinheiten (wie Länder oder Landkreise) einfach weitere Daten verbinden kann, etwa Arbeitslosigkeit, aber auch z.B. Kulturwerte. Der Abschluss dieses Kapitels zeigt einen Ausblick zur Generierung interaktiver Karten.
Sebastian Sauer

Modellieren

Frontmatter
15. Grundlagen des Modellierens
Zusammenfassung
Dieses Kapitels erläutert zunächst, was man unter einem Modell und unter Modellieren versteht und welche Rolle Abduktion dabei spielt. Dann wird eine einfache Taxonomie der Ziele des Modellierens vorgeschlagen. Ein wesentlicher, sich anschließender Punkt betrifft die Frage nach Unter- und Überanpassung: Kann ein Modell „zu gut“ sein? (Dass ein Modell „zu schlecht“ sein kann, bedarf keiner Erwähnung.) Der verbleibende Teil des Kapitels diskutiert, was man bei vermuteter Überanpassung eines Modells tun kann, welche Probleme sich ergeben und woran man ein „gutes“ Modell erkennt.
Sebastian Sauer
16. Inferenzstatistik
Zusammenfassung
Dieses Kapitel führt in eine moderne Variante der Inferenzstatistik ein: Der Computer wird angewiesen, viele Stichproben aus einer Population (z.B. laut der Nullhypothese) zu ziehen; man bezeichnet dieses Vorgehen als Simulation. Auf dieser Basis werden dann Aussagen über die Passung eines Datensatzes zu der Population laut Hypothese vorgebracht. Neben einigen konzeptionellen Grundlagen wie dem Bootstrapping wird die Umsetzung dieser Simulationsverfahren in R ausführlich erläutert. Das R-Paket mosaic stellt komfortable Befehle für diesen Zweck zur Verfügung.
Sebastian Sauer
17. Simulationsbasierte Inferenz
Zusammenfassung
Am Anfang (des Kapitels) steht die Frage nach dem Sinn: Wozu brauche ich Inferenzstatistik? Nachdem einige (teilweise befriedigende) Antworten vorgestellt wurden, geht es weiter um die zentralen Konzepte der (Fisherschen) Inferenzstatistik, namentlich vor allem um den p-Wert. Aufgrund seiner hohen Bedeutung in der (Forschungs-)Praxis werden seine Grenzen in einigem Detail diskutiert. Im sich anschließenden Teil des Kapitels geht es um praktische Fragen wie die nach der Wahl des richtigen Tests. Abschließend werden Alternativen zum p-Wert aufgeführt. Es wird kurz auf die Bayes-Statistik verwiesen.
Sebastian Sauer

Geleitetes Modellieren

Frontmatter
18. Lineare Modelle
Zusammenfassung
Die Regression ist eines der wichtigsten Werkzeuge der Datenanalyse – auch heute noch. Entsprechend lernen Sie die Grundlagen dieses Verfahren in einfacher Art und Weise. Einige Erweiterungen der einfachen Regression wie multiple Regression und Interaktion finden genauso Beachtung wie die Frage, woran man ein „gutes“ Regressionsmodell und wichtige Prädiktoren erkennen kann. Ein ausführlicheres Beispiel beschließt das Kapitel.
Sebastian Sauer
19. Klassifizierende Regression
Zusammenfassung
Die klassifizierende Regression ist ein (zentrales) Beispiel für die Generalisierung der „normalen“ Regression (die in Kapitel 18 behandelt wird); der Hauptunterschied ist, dass bei der logistischen Regression das Kriterium binär bzw. dichotom ist – und nicht metrisch wie bei der normalen Regression. Das hat zur Folge, dass die Funktion keine Gerade mehr beschreibt, sondern eine s-förmige Kurve. Nach dem Darstellen der Grundlagen der logistischen Regression und den Analogien zur normalen Regression folgt eine Erörterung zur Modellgüte: Wie viele Fälle wurden korrekt von einem Modell klassifiziert? Dabei ist zu unterscheiden, wie viele Fälle richtig als „positiv“ und wie viele Fälle richtig als „negativ“ klassifiziert wurden.
Sebastian Sauer
20. Fallstudie: Titanic
Zusammenfassung
In diesem Kapitel studieren Sie einen Fall angelehnt an die klassifizierende Regression. Es geht um die Frage, welche Variablen mit Überleben (vs. Ertrinken) auf der Titanic assoziiert sind – also um eine Klassifikation. Nachdem Sie zu Beginn eine explorative Analyse durchgeführt haben, garniert mit einigen statistischen Tests und zugehörigen Effektstärken, berechnen Sie ein binär-logistisches Modell.
Sebastian Sauer
21. Baumbasierte Verfahren
Zusammenfassung
In diesem Kapitel werden einige Varianten sog. „baumbasierter Verfahren“ vorgestellt. Als erster Vertreter werden Entscheidungsbäume diskutiert, gefolgt von einer kurzen Darstellung von Bagging-Modellen und dann, ausführlicher, von Random-Forest-Modellen. Da Entscheidungsbäume die konzeptionelle Grundlage dieser Familie stellen, erörtern wir diese Modelle relativ detailliert. Schließlich werden noch Vor- und Nachteile dieser Modellfamilie einander gegenübergestellt. Zum Abschluss bestimmen Sie die Relevanz von Prädiktoren bei diesen Modellen.
Sebastian Sauer
22. Fallstudie: Kreditwürdigkeit mit caret
Zusammenfassung
In dieser Fallstudie wird ein beliebtes Szenario für prädiktive Modellierung und für baumbasierte Verfahren vorgestellt. Die Leitfrage lautet: Anhand welcher personenbezogener Variablen kann man vorhersagen, ob ein Kunde einen Kredit zurückzahlen wird oder nicht? Im Rahmen dieser Fallstudie wird das R-Paket caret verwendet, welches eine einheitliche Syntax für eine Vielzahl prädiktiver Modelle bietet (die Syntax ist vergleichbar mit der von mosaic). Die Fallstudie bearbeitet die wichtigsten Stufen einer solchen Analyse: vom Daten aufbereiten, über Modelle anpassen und vergleichen weiter zur Kreuzvalidierung bis hin zur Bestimmung der Prädiktorenrelevanz.
Sebastian Sauer

Ungeleitetes Modellieren

Frontmatter
23. Clusteranalyse
Zusammenfassung
In diesem und den folgenden Kapiteln geht es um ungeleitetes Modellieren: Daten werden auf Basis von Ähnlichkeit zusammengefasst, ohne eine richtige Antwort zu wissen (wie es beim geleiteten Modellieren der Fall ist). Die Clusteranalyse ist ein klassisches Verfahren, das zumeist verwendet wird, um Fälle (z.B. Personen) nach Ähnlichkeit zu gruppieren. Zunächst erfahren Sie die konzeptuellen Grundlagen dieses Verfahren auf intuitive Art und Weise. Im zweiten Teil folgt dann eine Anwendung der Clusteranalyse im Rahmen eines einfachen Beispiels.
Sebastian Sauer
24. Textmining
Zusammenfassung
Textmining ist ein Feld mit großem Anwendungspotenzial - eine große Menge an Textmaterial existiert. Allerdings ist das Feld der Textanalyse noch weniger gut ausgelotet als die Analyse „braver“ Tabellen mit blanken Zahlen. In diesem Kapitel werden einige Grundlagen des Textminings vorgestellt: Die Auszählung häufiger Wörter, das Streichen von inhaltsleeren Wörtern, das Rückführen von Wörtern auf einen Wortstamm und die Sentiment-Analyse. Letztere schätzt auf einfache Art den emotionalen Gehalt eines Textes. Angereichert wird dieses Kapitel durch eine Einführung in Regex, was eine Art „Finden-und-Ersetzen“ darstellt, wie man es aus Textprogrammen kennt - nur auf zwölf Zylindern, sozusagen.
Sebastian Sauer
25. Fallstudie: Twitter-Mining
Zusammenfassung
Twitter-Mining ist eine Anwendung der Methoden des Textminings, verbunden mit einigem technischen Wissen zur Funktionsweise der Daten-Schnittstelle von Twitter. Das Kapitel zeigt, wie man Tweets herunterlädt, nachdem man sich ein Entwickler-Konto angelegt hat. Letzteres ist nötig, um Zugriff auf die Daten-Schnittstelle dieses Diensts zu bekommen.
Sebastian Sauer

Kommunizieren

Frontmatter
26. RMarkdown
Zusammenfassung
RMarkdown bietet vielseitige Möglichkeiten, Textdokumente zu erstellen, die mit R angereichert sind. Zu Beginn des Kapitels wird überlegt, welche Anforderungen an ein Software-Programm zur Erstellung von Texten zu richten ist. Das Resümee ist, vielleicht nicht für jeden überraschend, dass RMarkdown ein für viele Situationen adäquates Werkzeug zur Erstellung von Text-Dokumenten darstellt. Neben der Vorstellung der Bestimmungsstücke von RMarkdown wird YAML vorgestellt, was eine „Sprache“ ist, die zur Codierung von Metadaten eines Texts (wie Autor, Titel, Format) verwendet wird. Im weiteren Verlauf werden typische Beispiele von Funktionen aufgeführt, die man zur Erstellung eines Texts benötigt, wie das Einfügen von Abbildungen und Tabellen oder das Zitieren von Literatur. Zum Abschluss wird auf einige RMarkdown-Vorlagen für häufige Textformate verwiesen.
Sebastian Sauer

Rahmen 2

Frontmatter
27. Projektmanagement am Beispiel einer Fallstudie
Zusammenfassung
In diesem Kapitel geht es ausnahmsweise nicht um das „Gewusst-wie“ der Datenanalyse, sondern ein größeres Projekt wird aus der Vogelperspektive betrachtet. Dabei sollen einige generelle Aspekte größerer Projekte vor Augen geführt werden. Als Beispiel dient die Analyse von Populismus deutscher Politiker. Zentrale Aspekte eines Daten-Projektmanagements, die vorgestellt werden, beinhalten die Gliederung des Projektverzeichnisses, Faustregeln zur Strukturierung eines Projekts und das Nutzen eines Versionierungsdienstes.
Sebastian Sauer
28. Programmieren mit R
Zusammenfassung
In diesem fortgeschritteneren Kapitel werden einige häufig benötigte Programmiertechniken vorgestellt. Dabei wird nur eine Philosophie präsentiert, und zwar die des „Tidyverse“. Das Kapitel ist dreigeteilt: Zunächst erfährt man, wie man Funktionen schreibt. Dann geht es um die elegante Umsetzung von Wiederholungen (Schleifen); abschließend folgen einige mahnende Worte zum defensiven Programmieren.
Sebastian Sauer
29. Programmieren mit dplyr
Zusammenfassung
Dieses letzte Kapitel behandelt einen Spezialfall des Programmierens mit R: Programmieren mit Befehlen aus dplyr und anderen Befehlen, die – wie dplyr – die sog. „Non-Standard-Evaluation (NSE)“ verwenden. Zunächst gilt es zu verstehen, was NSE ist und warum sie in R recht häufig verwendet wird (nicht nur in dplyr). Im mittleren Teil wird NSE in Analogie zum Backen eines Kuchens illustriert. Abschließend folgt die Anwendung für einige häufige Fragen der Aufbereitung und Visualisierung von Daten mit dplyr und ggplot2.
Sebastian Sauer
Backmatter
Metadata
Title
Moderne Datenanalyse mit R
Author
Prof. Dr. Sebastian Sauer
Copyright Year
2019
Electronic ISBN
978-3-658-21587-3
Print ISBN
978-3-658-21586-6
DOI
https://doi.org/10.1007/978-3-658-21587-3