Grundlagen der Datenanalyse mit R
Eine anwendungsorientierte Einführung
- 2020
- Buch
- Verfasst von
- Dr. Daniel Wollschläger
- Buchreihe
- Statistik und ihre Anwendungen
- Verlag
- Springer Berlin Heidelberg
Über dieses Buch
Dieses Buch liefert eine anwendungsorientierte Einführung in die Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso umfassend wie inferenzstatistische Analysen. Neben klassischen univariaten Verfahren berücksichtigt das Buch nonparametrische Tests, Resampling-Methoden und multivariate Statistik. Zudem deckt es die vielfältigen Möglichkeiten ab, Daten aufzubereiten und Diagramme zu erstellen. Die statistischen Verfahren werden anhand von Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.
Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.
Für die fünfte Auflage wurde das Buch vollständig aktualisiert: Es bezieht sich nun auf die Version 4.0.0 von R, auch die Auswahl und Darstellung verwendeter Zusatzpakete wurde der dynamischen Entwicklung angepasst. Außerdem wurde insbesondere der Abschnitt zur Datenaufbereitung überarbeitet: Zur stärkeren Ausrichtung auf Data-Science-Anwendungen stellt er nun ausführlich das Paket dplyr vor, enthält eine erweiterte Darstellung von R-Markdown-Dokumenten und bespricht Hinweise zur Reproduzierbarkeit von Auswertungen.
Inhaltsverzeichnis
-
Frontmatter
-
Kapitel 1. Erste Schritte
Daniel WollschlägerZusammenfassungR ist eine freie und kostenlose Software-Umgebung zur statistischen Datenanalyse (Ihaka und Gentleman 1996; R Core Team 2019a). R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. -
Kapitel 2. Elementare Dateneingabe und -verarbeitung
Daniel WollschlägerZusammenfassungDie folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen. -
Kapitel 3. Daten importieren, exportieren, aufbereiten und aggregieren
Daniel WollschlägerZusammenfassungEmpirische Daten können auf verschiedenen Wegen in R verfügbar gemacht werden. Zunächst ist es möglich, Werte durch Zuweisungen etwa in Vektoren zu speichern und diese dann zu Datensätzen zusammenzufügen. -
Kapitel 4. Zuverlässige und reproduzierbare Datenauswertung
Daniel WollschlägerZusammenfassungR bietet viele Möglichkeiten, die dabei helfen, Datenauswertungen zuverlässig und reproduzierbar zu machen. -
Kapitel 5. Hilfsmittel für die Inferenzstatistik
Daniel WollschlägerZusammenfassungBevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse besprochen werden, ist es notwendig Hilfsmittel vorzustellen, auf die viele dieser Funktionen zurückgreifen. -
Kapitel 6. Lineare Regression
Daniel WollschlägerZusammenfassungDie Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. -
Kapitel 7. t-Tests und Varianzanalysen
Daniel WollschlägerZusammenfassungHäufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen mit derselben Varianz vorliegen. -
Kapitel 8. Regressionsmodelle für kategoriale Daten und Zähldaten
Daniel Wollschläger -
Kapitel 9. Survival-Analyse
Daniel WollschlägerZusammenfassungDie Survival-Analyse modelliert Überlebenszeiten (Hosmer Jr, Lemeshow & May, 2008; Klein & Moeschberger, 2003). Diese geben allgemein an, wieviel Zeit bis zum Eintreten eines bestimmten Ereignisses verstrichen ist und sollen hier deshalb gleichbedeutend mit Ereigniszeiten sein. Es kann sich dabei etwa um die Zeitdauer handeln, die ein Patient nach einer Behandlung weiter am Leben ist, um die verstrichene Zeit, bis ein bestimmtes Bauteil im Gebrauch einen Defekt aufweist, oder um die Dauer, die ein Kleinkind benötigt, um ein vordefiniertes Entwicklungsziel zu erreichen – z. B. einen Mindestwortschatz besitzt. -
Kapitel 10. Klassische nonparametrische Methoden
Daniel WollschlägerZusammenfassungWenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht. -
Kapitel 11. Resampling-Verfahren
Daniel WollschlägerZusammenfassungResampling-Verfahren kommen für eine Vielzahl von Tests in Frage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung einer Teststatistik \(\hat{\theta }\) – etwa eines Schätzers \(\hat{\theta }\) für einen theoretischen Parameter \(\theta \). Diese Verteilung kann aus verschiedenen Gründen unbekannt sein: So sind etwa die in parametrischen Tests gemachten Annahmen, unter denen ihre Teststatistik eine bekannte Verteilung aufweist, nicht immer zu rechtfertigen. In vielen klassischen nonparametrischen Verfahren ist die Verteilung der Teststatistik zwar im Prinzip exakt zu ermitteln, praktisch aber der Rechenaufwand dafür zu hoch. -
Kapitel 12. Multivariate Verfahren
Daniel WollschlägerZusammenfassungLiegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen. -
Kapitel 13. Vorhersagegüte prädiktiver Modelle
Daniel WollschlägerZusammenfassungDa empirische Daten fehlerbehaftet sind, bezieht die Anpassung eines statistischen Modells immer auch die Messfehler mit ein, die Parameterschätzungen orientieren sich daher zu stark an den zufälligen Besonderheiten der konkreten Stichprobe (overfitting). Die Güte der Passung des Modells lässt sich als Funktion \(f(\cdot )\) der Abweichungen \(E = Y - \hat{Y}\) der Modellvorhersage \(\hat{Y}\) zu den tatsächlichen Werten der vorhergesagten Variable Y quantifizieren. Genauer soll \(\hat{Y'}_{X, Y}(X')\) die folgende Vorhersage bezeichnen: Zunächst wird ein Modell an einer Stichprobe mit Werten für Prädiktoren X und Zielvariable Y (Kriterium) angepasst. In die Vorhersagegleichung mit den Parameterschätzungen dieses Modells werden dann (potentiell andere) Prädiktorwerte \(X'\) eingesetzt, um die Vorhersage \(\hat{Y'}\) zu berechnen, die mit den tatsächlichen Beobachtungen \(Y'\) zu vergleichen sind. f(E) ist die Verlustfunktion, die alle individuellen absoluten Abweichungen \(e_{i}\) auf einen Gesamtwert für die Vorhersagegenauigkeit abbildet. -
Kapitel 14. Diagramme erstellen
Daniel WollschlägerZusammenfassungDaten lassen sich in R mit Hilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. Für eine umfassende Dokumentation vgl. Murrell (2018) und Unwin (2015). Während sich dieses Kapitel auf den Basisumfang von R konzentriert, geht Kap. auf das beliebte Zusatzpaketggplot2ein Wickham und Sievert (2016). -
Kapitel 15. Diagramme mit ggplot2
Daniel WollschlägerZusammenfassungMit dem Zusatzpaketggplot2lassen sich die in Kap. 14 vorgestellten Diagrammtypen ebenfalls erstellen. Dabei ist die Herangehensweise eine grundsätzlich andere: Während der Basisumfang von R für verschiedene Diagrammarten einzelne Funktionen bereitstellt, werden mitggplot2alle Diagrammtypen mit einem einheitlichen System erzeugt. -
Kapitel 16. Numerische Methoden
Daniel WollschlägerZusammenfassungNumerische Methoden spielen in der Datenanalyse u. a. deswegen eine wichtige Rolle, weil nur in Spezialfällen geschlossene Formeln für die Parameterschätzung existieren, die zu einer bestmöglichen Passung eines statistischen Modells für beobachtete Daten führt. Der Einsatz numerischer Methoden bleibt dem Anwender aber verborgen, weil die typischerweise eingesetzten Funktionen zur Modellanpassung zwar intern auf solchen Methoden beruhen, sie die gewählten Algorithmen dem Anwender aber nicht unmittelbar offen legen. -
Kapitel 17. R als Programmiersprache
Daniel WollschlägerZusammenfassungR bietet nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können. -
Backmatter
- Titel
- Grundlagen der Datenanalyse mit R
- Verfasst von
-
Dr. Daniel Wollschläger
- Copyright-Jahr
- 2020
- Verlag
- Springer Berlin Heidelberg
- Electronic ISBN
- 978-3-662-61736-6
- Print ISBN
- 978-3-662-61735-9
- DOI
- https://doi.org/10.1007/978-3-662-61736-6
Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.