Skip to main content

2017 | Buch

Grundlagen der Datenanalyse mit R

Eine anwendungsorientierte Einführung

insite
SUCHEN

Über dieses Buch

Dieses Buch liefert eine anwendungsorientierte Einführung in die Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso umfassend wie inferenzstatistische Analysen. Neben klassischen univariaten Verfahren berücksichtigt das Buch nonparametrische Tests, Resampling-Methoden und multivariate Statistik. Zudem deckt es die vielfältigen Möglichkeiten ab, Daten aufzubereiten und Diagramme zu erstellen. Die statistischen Verfahren werden anhand von Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.

Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.

In die vierte Auflage sind sowohl die Neuerungen von R 3.3.2 als auch jüngere Entwicklungen bei den Zusatzpaketen eingeflossen. Gleichzeitig wurde der Text überarbeitet und um ein eigenes Kapitel zu Diagrammen mit ggplot2 erweitert. Der Text behandelt nun auch allgemeine numerische Methoden wie Nullstellensuche, numerische Integration und Ableitung sowie numerische Optimierung.

Inhaltsverzeichnis

Frontmatter
1. Erste Schritte
Zusammenfassung
R ist eine freie und kostenlose Umgebung zur computergestützten statistischen Datenverarbeitung (Ihaka & Gentleman, 1996; R Core Team, 2014): R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden. Denn in R bestehen Auswertungen aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat. Jeder Befehl stellt dabei einen eigenen Auswertungsschritt dar, wobei eine vollständige Datenanalyse die Abfolge vieler solcher Schritte umfasst. So könnten Daten zunächst aus einer Datei gelesen und zwei Variablen zu einer neuen verrechnet werden, ehe eine Teilmenge von Beobachtungen ausgewählt und mit ihr ein statistischer Test durchgeführt wird, dessen Ergebnisse im Anschluss grafisch aufzubereiten sind.
Daniel Wollschläger
2. Elementare Dateneingabe und -verarbeitung
Zusammenfassung
Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen.
Daniel Wollschläger
3. Datensätze
Zusammenfassung
Vektoren, Matrizen und arrays sind dahingehend eingeschränkt, dass sie gleichzeitig nur Werte desselben Datentyps aufnehmen können. Da in empirischen Erhebungen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie nicht unmittelbar geeignet, vollständige Datensätze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler: Sie erlauben es, gleichzeitig Variablen unterschiedlichen Datentyps und auch unterschiedlicher Klasse als Komponenten zu besitzen.
Daniel Wollschläger
4. Befehle und Daten verwalten
Zusammenfassung
Für Datenanalysen, die über wenige Teilschritte hinausgehen, ist die interaktive Arbeitsweise direkt auf der Konsole meist nicht sinnvoll. Stattdessen lässt sich die Auswertung automatisieren, indem alle Befehle zunächst zeilenweise in eine als Skript bezeichnete Textdatei geschrieben werden, die dann ihrerseits von R komplett oder in Teilen ausgeführt wird. Analoges gilt für die Verwaltung empirischer Daten: Gewöhnlich werden diese nicht von Hand auf der Konsole eingegeben, sondern in separaten Dateien gespeichert – sei es in R, in Programmen zur Tabellenkalkulation oder in anderen Statistikpaketen. Siehe Abschn. 4.3 für die Form der Pfadangaben zu Dateien in den folgenden Abschnitten.
Daniel Wollschläger
5. Hilfsmittel für die Inferenzstatistik
Zusammenfassung
Bevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse besprochen werden, ist es notwendig Hilfsmittel vorzustellen, auf die viele dieser Funktionen zurückgreifen.
Daniel Wollschläger
6. Lineare Regression
Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression analysiert den linearen Zusammenhang von Variablen, um die Werte einer Zielvariable (Kriterium) durch die Werte anderer Variablen (Prädiktoren, Kovariaten, Kovariablen) vorherzusagen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2015), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2014; Fox & Weisberg, 2011).
Daniel Wollschläger
7. t-Tests und Varianzanalysen
Zusammenfassung
Häufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen mit derselben Varianz vorliegen. Bevor auf Tests zum Vergleich von Erwartungswerten eingegangen wird, sollen deshalb zunächst jene Verfahren vorgestellt werden, die sich mit der Prüfung statistischer Voraussetzungen befassen (Abschn. 10.1). Für die statistischen Grundlagen dieser Themen vgl. Eid et al. (2015); Kirk (2013) sowie Maxwell und Delaney (2004).
Daniel Wollschläger
8. Regressionsmodelle für kategoriale Daten und Zähldaten
Zusammenfassung
Das Modell der linearen Regression und Varianzanalyse (Abschn. 6.3, 7.3 und 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist. Als Prädiktoren lassen sich sowohl kontinuierliche Variablen als auch Gruppierungsfaktoren einsetzen. Ein Spezialfall ist die logistische Regression für dichotome Y (codiert als 0 und 1). Im Vergleich zur Vorhersage quantitativer Variablen in der linearen Regression wird an diesem Beispiel zunächst folgende Schwierigkeit deutlich (für Details vgl. Faraway, 2016; Fox & Weisberg, 2011):
Daniel Wollschläger
9. Survival-Analyse
Zusammenfassung
Die Survival-Analyse modelliert Überlebenszeiten (Hosmer Jr, Lemeshow, & May, 2008; Klein & Moeschberger, 2003). Diese geben allgemein an, wieviel Zeit bis zum Eintreten eines bestimmten Ereignisses verstrichen ist und sollen hier deshalb gleichbedeutend mit Ereigniszeiten sein. Es kann sich dabei etwa um die Zeitdauer handeln, die ein Patient nach einer Behandlung weiter am Leben ist, um die verstrichene Zeit, bis ein bestimmtes Bauteil im Gebrauch einen Defekt aufweist, oder um die Dauer, die ein Kleinkind benötigt, um ein vordefiniertes Entwicklungsziel zu erreichen – z. B. einen Mindestwortschatz besitzt. Bei der Analyse von Überlebenszeiten kann sowohl die Form ihres grundsätzlichen Verlaufs von Interesse sein, als auch inwiefern ihr Verlauf systematisch von Einflussgrößen abhängt.
Daniel Wollschläger
10. Klassische nonparametrische Methoden
Zusammenfassung
Wenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht. Dagegen haben nonparametrische Methoden weniger restriktive Voraussetzungen und kommen auch bei kleinen Stichproben in Frage (Bortz, Lienert, & Boehnke, 2010; Büning & Trenkler, 1994).
Daniel Wollschläger
11. Resampling-Verfahren
Zusammenfassung
Resampling-Verfahren kommen für eine Vielzahl von Tests in Frage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung einer Teststatistik \(\hat{\theta }\) – etwa eines Schätzers \(\hat{\theta }\) für einen theoretischen Parameter θ.
Daniel Wollschläger
12. Multivariate Verfahren
Zusammenfassung
Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen. Solche Fragestellungen sind mit multivariaten Verfahren zu bearbeiten (Backhaus, Erichson, Plinke, & Weiber, 2015a Backhaus, Erichson, & Weiber, 2015b; Mardia, Kent, & Bibby, 1980), deren Anwendung in R Zelterman (2015) vertiefend behandelt. Abschn. 14.6.8, 14.7 und 15.3 thematisieren Möglichkeiten, multivariate Daten in Diagrammen zu veranschaulichen.
Daniel Wollschläger
13. Vorhersagegüte prädiktiver Modelle
Zusammenfassung
Da empirische Daten fehlerbehaftet sind, bezieht die Anpassung eines statistischen Modells immer auch die Messfehler mit ein, die Parameterschätzungen orientieren sich daher zu stark an den zufälligen Besonderheiten der konkreten Stichprobe (overfitting). Die Güte der Passung des Modells lässt sich als Funktion \(f(\cdot )\) der Abweichungen \(E = Y -\hat{ Y }\) der Modellvorhersage \(\hat{Y }\) zu den tatsächlichen Werten der vorhergesagten Variable Y quantifizieren. Genauer soll \(\hat{Y }_{X,Y }\, (X')\) die folgende Vorhersage bezeichnen: Zunächst wird ein Modell an einer Stichprobe mit Werten für Prädiktoren X und Zielvariable Y (Kriterium) angepasst. In die Vorhersagegleichung mit den Parameterschätzungen dieses Modells werden dann (potentiell andere) Prädiktorwerte X′ eingesetzt, um die Vorhersage \(\hat{Y }\) zu berechnen, die mit den tatsächlichen Beobachtungen Y ′ zu vergleichen sind. f(E) ist die Verlustfunktion, die alle individuellen absoluten Abweichungen e i auf einen Gesamtwert für die Vorhersagegenauigkeit abbildet.
Daniel Wollschläger
14. Diagramme erstellen
Zusammenfassung
Daten lassen sich in R mit Hilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. Für eine umfassende Dokumentation vgl. Murrell (2011) und Unwin (2015).
Daniel Wollschläger
15. Diagramme mit ggplot2
Zusammenfassung
Mit dem Zusatzpaket ggplot2 lassen sich die in Kap. 14 vorgestellten Diagrammtypen ebenfalls erstellen. Dabei ist die Herangehensweise eine grundsätzlich andere: Während der Basisumfang von R für verschiedene Diagrammarten einzelne Funktionen bereitstellt, werden mit ggplot2 alle Diagrammtypen mit einem einheitlichen System erzeugt. Sind Diagramme des Basisumfangs analog zu einer Leinwand, auf der jede Funktion später nicht mehr änderbare Elemente aufmalt, repräsentiert ggplot2 alle Diagrammelemente explizit in einem Objekt. Erstellte Diagramme lassen sich über dieses Objekt weiter verändern, an Funktionen übergeben und speichern.
Daniel Wollschläger
16. Numerische Methoden
Zusammenfassung
Numerische Methoden spielen in der Datenanalyse u. a. deswegen eine wichtige Rolle, weil nur in Spezialfällen geschlossene Formeln für die Parameterschätzung existieren, die zu einer bestmöglichen Passung eines statistischen Modells für beobachtete Daten führt. Der Einsatz numerischer Methoden bleibt dem Anwender aber verborgen, weil die typischerweise eingesetzten Funktionen zur Modellanpassung zwar intern auf solchen Methoden beruhen, sie die gewählten Algorithmen dem Anwender aber nicht unmittelbar offen legen.
Daniel Wollschläger
17. R als Programmiersprache
Zusammenfassung
R bietet nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können. Eine ausführliche Behandlung sei der hierauf spezialisierten Literatur überlassen (Chambers, 2008; Ligges, 2016; Wickham, 2014). Die Entwicklung eigener R-Pakete behandeln R Core Team (2016d) und Wickham (2015).
Daniel Wollschläger
Backmatter
Metadaten
Titel
Grundlagen der Datenanalyse mit R
verfasst von
Daniel Wollschläger
Copyright-Jahr
2017
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-53670-4
Print ISBN
978-3-662-53669-8
DOI
https://doi.org/10.1007/978-3-662-53670-4

Premium Partner