Skip to main content

2020 | Buch

Grundlagen der Datenanalyse mit R

Eine anwendungsorientierte Einführung

verfasst von: Dr. Daniel Wollschläger

Verlag: Springer Berlin Heidelberg

Buchreihe : Statistik und ihre Anwendungen

insite
SUCHEN

Über dieses Buch

Dieses Buch liefert eine anwendungsorientierte Einführung in die Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso umfassend wie inferenzstatistische Analysen. Neben klassischen univariaten Verfahren berücksichtigt das Buch nonparametrische Tests, Resampling-Methoden und multivariate Statistik. Zudem deckt es die vielfältigen Möglichkeiten ab, Daten aufzubereiten und Diagramme zu erstellen. Die statistischen Verfahren werden anhand von Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.

Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.

Für die fünfte Auflage wurde das Buch vollständig aktualisiert: Es bezieht sich nun auf die Version 4.0.0 von R, auch die Auswahl und Darstellung verwendeter Zusatzpakete wurde der dynamischen Entwicklung angepasst. Außerdem wurde insbesondere der Abschnitt zur Datenaufbereitung überarbeitet: Zur stärkeren Ausrichtung auf Data-Science-Anwendungen stellt er nun ausführlich das Paket dplyr vor, enthält eine erweiterte Darstellung von R-Markdown-Dokumenten und bespricht Hinweise zur Reproduzierbarkeit von Auswertungen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Erste Schritte
Zusammenfassung
R ist eine freie und kostenlose Software-Umgebung zur statistischen Datenanalyse (Ihaka und Gentleman 1996; R Core Team 2019a). R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können.
Daniel Wollschläger
Kapitel 2. Elementare Dateneingabe und -verarbeitung
Zusammenfassung
Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen.
Daniel Wollschläger
Kapitel 3. Daten importieren, exportieren, aufbereiten und aggregieren
Zusammenfassung
Empirische Daten können auf verschiedenen Wegen in R verfügbar gemacht werden. Zunächst ist es möglich, Werte durch Zuweisungen etwa in Vektoren zu speichern und diese dann zu Datensätzen zusammenzufügen.
Daniel Wollschläger
Kapitel 4. Zuverlässige und reproduzierbare Datenauswertung
Zusammenfassung
R bietet viele Möglichkeiten, die dabei helfen, Datenauswertungen zuverlässig und reproduzierbar zu machen.
Daniel Wollschläger
Kapitel 5. Hilfsmittel für die Inferenzstatistik
Zusammenfassung
Bevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse besprochen werden, ist es notwendig Hilfsmittel vorzustellen, auf die viele dieser Funktionen zurückgreifen.
Daniel Wollschläger
Kapitel 6. Lineare Regression
Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs.
Daniel Wollschläger
Kapitel 7. t-Tests und Varianzanalysen
Zusammenfassung
Häufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen mit derselben Varianz vorliegen.
Daniel Wollschläger
Kapitel 8. Regressionsmodelle für kategoriale Daten und Zähldaten
Zusammenfassung
Das Modell der linearen Regression und Varianzanalyse (Abschn. 6.​3 und 7.​3, 12.​9.​1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist.
Daniel Wollschläger
Kapitel 9. Survival-Analyse
Zusammenfassung
Die Survival-Analyse modelliert Überlebenszeiten (Hosmer Jr, Lemeshow & May, 2008; Klein & Moeschberger, 2003). Diese geben allgemein an, wieviel Zeit bis zum Eintreten eines bestimmten Ereignisses verstrichen ist und sollen hier deshalb gleichbedeutend mit Ereigniszeiten sein. Es kann sich dabei etwa um die Zeitdauer handeln, die ein Patient nach einer Behandlung weiter am Leben ist, um die verstrichene Zeit, bis ein bestimmtes Bauteil im Gebrauch einen Defekt aufweist, oder um die Dauer, die ein Kleinkind benötigt, um ein vordefiniertes Entwicklungsziel zu erreichen – z. B. einen Mindestwortschatz besitzt.
Daniel Wollschläger
Kapitel 10. Klassische nonparametrische Methoden
Zusammenfassung
Wenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht.
Daniel Wollschläger
Kapitel 11. Resampling-Verfahren
Zusammenfassung
Resampling-Verfahren kommen für eine Vielzahl von Tests in Frage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung einer Teststatistik \(\hat{\theta }\) – etwa eines Schätzers \(\hat{\theta }\) für einen theoretischen Parameter \(\theta \). Diese Verteilung kann aus verschiedenen Gründen unbekannt sein: So sind etwa die in parametrischen Tests gemachten Annahmen, unter denen ihre Teststatistik eine bekannte Verteilung aufweist, nicht immer zu rechtfertigen. In vielen klassischen nonparametrischen Verfahren ist die Verteilung der Teststatistik zwar im Prinzip exakt zu ermitteln, praktisch aber der Rechenaufwand dafür zu hoch.
Daniel Wollschläger
Kapitel 12. Multivariate Verfahren
Zusammenfassung
Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen.
Daniel Wollschläger
Kapitel 13. Vorhersagegüte prädiktiver Modelle
Zusammenfassung
Da empirische Daten fehlerbehaftet sind, bezieht die Anpassung eines statistischen Modells immer auch die Messfehler mit ein, die Parameterschätzungen orientieren sich daher zu stark an den zufälligen Besonderheiten der konkreten Stichprobe (overfitting). Die Güte der Passung des Modells lässt sich als Funktion \(f(\cdot )\) der Abweichungen \(E = Y - \hat{Y}\) der Modellvorhersage \(\hat{Y}\) zu den tatsächlichen Werten der vorhergesagten Variable Y quantifizieren. Genauer soll \(\hat{Y'}_{X, Y}(X')\) die folgende Vorhersage bezeichnen: Zunächst wird ein Modell an einer Stichprobe mit Werten für Prädiktoren X und Zielvariable Y (Kriterium) angepasst. In die Vorhersagegleichung mit den Parameterschätzungen dieses Modells werden dann (potentiell andere) Prädiktorwerte \(X'\) eingesetzt, um die Vorhersage \(\hat{Y'}\) zu berechnen, die mit den tatsächlichen Beobachtungen \(Y'\) zu vergleichen sind. f(E) ist die Verlustfunktion, die alle individuellen absoluten Abweichungen \(e_{i}\) auf einen Gesamtwert für die Vorhersagegenauigkeit abbildet.
Daniel Wollschläger
Kapitel 14. Diagramme erstellen
Zusammenfassung
Daten lassen sich in R mit Hilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. Für eine umfassende Dokumentation vgl.  Murrell (2018) und Unwin (2015). Während sich dieses Kapitel auf den Basisumfang von R konzentriert, geht Kap. auf das beliebte Zusatzpaket ggplot2 ein Wickham und Sievert (2016).
Daniel Wollschläger
Kapitel 15. Diagramme mit ggplot2
Zusammenfassung
Mit dem Zusatzpaket ggplot2 lassen sich die in Kap. 14 vorgestellten Diagrammtypen ebenfalls erstellen. Dabei ist die Herangehensweise eine grundsätzlich andere: Während der Basisumfang von R für verschiedene Diagrammarten einzelne Funktionen bereitstellt, werden mit ggplot2 alle Diagrammtypen mit einem einheitlichen System erzeugt.
Daniel Wollschläger
Kapitel 16. Numerische Methoden
Zusammenfassung
Numerische Methoden spielen in der Datenanalyse u. a. deswegen eine wichtige Rolle, weil nur in Spezialfällen geschlossene Formeln für die Parameterschätzung existieren, die zu einer bestmöglichen Passung eines statistischen Modells für beobachtete Daten führt. Der Einsatz numerischer Methoden bleibt dem Anwender aber verborgen, weil die typischerweise eingesetzten Funktionen zur Modellanpassung zwar intern auf solchen Methoden beruhen, sie die gewählten Algorithmen dem Anwender aber nicht unmittelbar offen legen.
Daniel Wollschläger
Kapitel 17. R als Programmiersprache
Zusammenfassung
R bietet nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können.
Daniel Wollschläger
Backmatter
Metadaten
Titel
Grundlagen der Datenanalyse mit R
verfasst von
Dr. Daniel Wollschläger
Copyright-Jahr
2020
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-61736-6
Print ISBN
978-3-662-61735-9
DOI
https://doi.org/10.1007/978-3-662-61736-6