nach oben

2014 | Buch

Kapitel lesen Erstes Kapitel lesen

Grundlagen der Datenanalyse mit R

Eine anwendungsorientierte Einführung

verfasst von: Daniel Wollschläger

Verlag: Springer Berlin Heidelberg

Buchreihe : Statistik und ihre Anwendungen

Enthalten in: Springer Professional "Wirtschaft+Technik" , Springer Professional "Wirtschaft" , Springer Professional "Technik"

Einloggen, um Zugang zu erhalten

Über dieses Buch

Dieses Buch liefert eine anwendungsorientierte Einführung in die Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso umfassend wie inferenzstatistische Analysen. Neben klassischen univariaten Verfahren berücksichtigt das Buch nonparametrische Tests, Resampling-Methoden und multivariate Statistik. Zudem deckt es die vielfältigen Möglichkeiten ab, Daten aufzubereiten und Diagramme zu erstellen. Die statistischen Verfahren werden anhand von Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.

In die dritte Auflage sind sowohl die Neuerungen von R 3.1.1 als auch jüngere Entwicklungen bei den Zusatzpaketen eingeflossen. Gleichzeitig wurde der Text überarbeitet und in den Bereichen der logistischen Regression sowie der Kreuzvalidierung deutlich erweitert. Der Text behandelt nun auch die ordinale, multinomiale und Poisson-Regression ebenso wie log-lineare Modelle und die Survival-Analyse.

Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.

Inhaltsverzeichnis

Frontmatter

1. Erste Schritte

Zusammenfassung

R ist eine freie und kostenlose Umgebung zur computergestützten statistischen Datenverarbeitung (Ihaka & Gentleman, 1996; R Development Core Team, 2014a): R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden. In R bestehen Auswertungen nämlich aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat. Jeder Befehl stellt dabei einen eigenen Auswertungsschritt dar, wobei eine vollständige Datenanalyse durch die Abfolge vieler solcher Schritte gekennzeichnet ist. So könnten Daten zunächst aus einer Datei gelesen und zwei Variablen zu einer neuen verrechnet werden, ehe eine Teilmenge von Beobachtungen ausgewählt und mit ihr ein statistischer Test durchgeführt wird, dessen Ergebnisse im Anschluss grafisch aufzubereiten sind.

Daniel Wollschläger

2. Elementare Dateneingabe und -verarbeitung

Zusammenfassung

Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen.

Daniel Wollschläger

3. Datensätze

Zusammenfassung

Vektoren, Matrizen und arrays sind dahingehend eingeschränkt, dass sie gleichzeitig nur Werte desselben Datentyps aufnehmen können. Da in empirischen Erhebungen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie nicht unmittelbar geeignet, vollständige Datensätze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler: Sie erlauben es, gleichzeitig Variablen unterschiedlichen Datentyps und auch unterschiedlicher Klasse als Komponenten zu besitzen.

Daniel Wollschläger

4. Befehle und Daten verwalten

Zusammenfassung

Für Datenanalysen, die über wenige Teilschritte hinausgehen, ist die interaktive Arbeitsweise meist nicht sinnvoll, in der sich eingegebene Befehle mit der von R erzeugten Ausgabe auf der Konsole abwechseln. Stattdessen lässt sich die Auswertung automatisieren, indem alle Befehle zunächst zeilenweise in eine als Skript bezeichnete Textdatei geschrieben werden, die dann ihrerseits von R komplett oder in Teilen ausgeführt wird. Analoges gilt für die Verwaltung empirischer Daten: Gewöhnlich werden diese nicht von Hand auf der Konsole eingegeben, sondern in separaten Dateien gespeichert – sei es in R, in Programmen zur Tabellenkalkulation oder in anderen Statistikpaketen. Vergleiche Abschn. 4.3 für die Form der Pfadangaben zu Dateien in den folgenden Abschnitten.

Daniel Wollschläger

5. Hilfsmittel für die Inferenzstatistik

Zusammenfassung

Bevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse besprochen werden, ist es notwendig Hilfsmittel vorzustellen, auf die viele dieser Funktionen zurückgreifen. Dazu gehören die Syntax zur Formulierung linearer Modelle sowie einige Familien statistischer Verteilungen von Zufallsvariablen, die bereits bei der Erstellung zufälliger Werte in Erscheinung getreten sind (vgl. Abschn. 2.4.4). Zunächst ist die Bedeutung wichtiger inhaltlicher Begriffe zu klären, die im Kontext inferenzstatistischer Tests häufig auftauchen.

Daniel Wollschläger

6. Lineare Regression

Zusammenfassung

Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression analysiert den linearen Zusammenhang von Variablen, um die Werte einer Zielvariable (Kriterium) durch die Werte anderer Variablen (Prädiktoren, Kovariaten, Kovariablen) vorherzusagen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2013), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2014; Fox & Weisberg, 2011).

Daniel Wollschläger

7. t-Tests und Varianzanalysen

Zusammenfassung

Häufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen mit derselben Varianz vorliegen. Bevor auf Tests zum Vergleich von Erwartungswerten eingegangen wird, sollen deshalb zunächst jene Verfahren vorgestellt werden, die sich mit der Prüfung statistischer Voraussetzungen befassen (vgl. auch Abschn. 10.1). Für die statistischen Grundlagen dieser Themen vgl. Eid et al. (2013); Maxwell und Delaney (2004).

Daniel Wollschläger

8. Regressionsmodelle für kategoriale Daten und Zähldaten

Zusammenfassung

Das Modell der linearen Regression und Varianzanalyse (vgl. Abschn. 6.3, 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist. Als Prädiktoren lassen sich sowohl kontinuierliche Variablen als auch Gruppierungsfaktoren einsetzen. Ein Spezialfall ist die logistische Regression für dichotome Y (codiert als 0 und 1).

Daniel Wollschläger

9. Survival-Analyse

Zusammenfassung

Die Survival-Analyse modelliert Überlebenszeiten (Hosmer Jr, Lemeshow & May, 2008; Klein & Moeschberger, 2003). Diese geben allgemein an, wieviel Zeit bis zum Eintreten eines bestimmten Ereignisses vestrichen ist und sollen hier deshalb gleichbedeutend mit Ereigniszeiten sein. Es kann sich dabei etwa um die Zeitdauer handeln, die ein Patient nach einer Behandlung weiter am Leben ist, um die verstrichene Zeit, bis ein bestimmtes Bauteil im Gebrauch einen Defekt aufweist, oder um die Dauer, die ein Kleinkind benötigt, um ein vordefiniertes Entwicklungsziel zu erreichen – z. B. einen Mindestwortschatz besitzt. Bei der Analyse von Überlebenszeiten kann sowohl die Form ihres grundsätzlichen Verlaufs von Interesse sein, als auch inwiefern ihr Verlauf systematisch von Einflussgrößen abhängt.

Daniel Wollschläger

10. Klassische nonparametrische Methoden

Zusammenfassung

Wenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht. Für solche Situationen hält der Bereich der nonparametrischen Statistik Methoden bereit, deren Voraussetzungen gewöhnlich weniger restriktiv sind und die auch bei kleinen Stichproben zur Auswertung in Frage kommen (Bortz, Lienert & Boehnke, 2010; Büning & Trenkler, 1994). Auch für (gemeinsame) Häufigkeiten kategorialer Variablen und ordinale Daten sind viele der folgenden Methoden geeignet und ergänzen damit die in Kap. 8 vorgestellten Modelle.

Daniel Wollschläger

11. Resampling-Verfahren

Zusammenfassung

Resampling-Verfahren kommen für eine Vielzahl von Tests in Frage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung einer Teststatistik \(\hat{\theta }\) – etwa eines Schätzers \(\hat{\theta }\) für einen theoretischen Parameter θ. Diese Verteilung kann aus verschiedenen Gründen unbekannt sein: So sind etwa die in parametrischen Tests gemachten Annahmen, unter denen ihre Teststatistik eine bekannte Verteilung aufweist, nicht immer zu rechtfertigen. In vielen klassischen nonparametrischen Verfahren ist die Verteilung der Teststatistik zwar im Prinzip exakt zu ermitteln, praktisch aber der Rechenaufwand dafür zu hoch.

Daniel Wollschläger

12. Multivariate Verfahren

Zusammenfassung

Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen. Solche Fragestellungen sind mit multivariaten Verfahren zu bearbeiten (Backhaus, Erichson, Plinke & Weiber, 2011; Härdle & Simar, 2012; Mardia, Kent & Bibby, 1980), deren Anwendung in R Everitt und Hothorn (2011) vertiefend behandeln. Abschnitt 14.6.8 und 14.8 thematisieren Möglichkeiten, multivariate Daten in Diagrammen zu veranschaulichen.

Daniel Wollschläger

13. Vorhersagegüte prädiktiver Modelle

Zusammenfassung

Da empirische Daten fehlerbehaftet sind, bezieht die Anpassung eines statistischen Modells immer auch die Messfehler mit ein, die Parameterschätzungen orientieren sich daher zu stark an den zufälligen Besonderheiten der konkreten Stichprobe (overfitting).

Daniel Wollschläger

14. Diagramme erstellen

Zusammenfassung

Daten lassen sich in R mit Hilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. In R werden zwei Arten von Grafikfunktionen unterschieden: High-Level-Funktionen erstellen eigenständig ein komplettes Diagramm inkl. Achsen, während Low-Level-Funktionen lediglich ein bestimmtes Element einem bestehenden Diagramm hinzufügen. Einen kurzen Überblick über die Gestaltungsmöglichkeiten vermittelt demo(graphics).

Daniel Wollschläger

15. R als Programmiersprache

Zusammenfassung

R bietet nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das seinerseits sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können. Eine ausführliche Behandlung sei der hierauf spezialisierten Literatur überlassen (Chambers, 2008; Ligges, 2014; Wickham, 2014a). Die Entwicklung eigener R-Pakete behandeln R Development Core Team (2014d) und Wickham (2014c).

Daniel Wollschläger

Backmatter

Titel: Grundlagen der Datenanalyse mit R
verfasst von: Daniel Wollschläger
Verlag: Springer Berlin Heidelberg
Electronic ISBN: 978-3-662-45507-4
Print ISBN: 978-3-662-45506-7
DOI: https://doi.org/10.1007/978-3-662-45507-4