Skip to main content

2012 | Buch

Grundlagen der Datenanalyse mit R

Eine anwendungsorientierte Einführung

verfasst von: Daniel Wollschläger

Verlag: Springer Berlin Heidelberg

Buchreihe : Statistik und ihre Anwendungen

insite
SUCHEN

Über dieses Buch

Dieses Buch liefert eine anwendungsorientierte Einführung in die statistische Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso wie inferenzstatistische Analysen. Neben den klassischen univariaten Verfahren berücksichtigt es auch zahlreiche nonparametrische und multivariate Methoden. Zudem deckt es die vielfältigen Möglichkeiten ab, Diagramme zu erstellen und Daten mit anderen Programmen auszutauschen. Die statistischen Verfahren werden an Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.

Für die zweite Auflage wurden die Neuerungen von R 2.14 berücksichtigt. Gleichzeitig wurde der Text überarbeitet und in den Bereichen der Regression, Resampling-Verfahren und multivariaten Tests deutlich erweitert.

Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Erste Schritte
Zusammenfassung
R ist eine freie und kostenlose Umgebung zur computergestützten statistischen Datenverarbeitung (Ihaka & Gentleman, 1996; R Development Core Team, 2011b): R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden. In R bestehen Auswertungen nämlich aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat. Jeder Befehl stellt dabei einen eigenen Auswertungsschritt dar, wobei eine vollständige Datenanalyse durch die Abfolge vieler solcher Schritte gekennzeichnet ist. So könnten Daten zunächst aus einer Datei gelesen und zwei Variablen zu einer neuen verrechnet werden, ehe eine Teilmenge von Beobachtungen ausgewählt und mit ihr ein statistischer Test durchgeführt wird, dessen Ergebnisse im Anschluss grafisch aufzubereiten sind.
Daniel Wollschläger
Kapitel 2. Elementare Dateneingabe und -verarbeitung
Zusammenfassung
Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen.
Daniel Wollschläger
Kapitel 3. Datensätze
Zusammenfassung
Vektoren, Matrizen und arrays unterliegen der Beschränkung, gleichzeitig nur Werte desselben Datentyps aufnehmen zu können. Da in empirischen Erhebungssituationen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie nicht unmittelbar geeignet, vollständige Datensätze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler: Sie erlauben es, gleichzeitig Variablen unterschiedlichen Datentyps und auch unterschiedlicher Klasse als Komponenten zu besitzen. Der Datentyp von Listen und Datensätzen selbst ist list. Listen eignen sich zur Repräsentation heterogener Sammlungen von Daten undwerden deshalb von vielen Funktionen genutzt, um ihr Ergebnis zurückzugeben. Listen sind darüber hinaus die allgemeine Grundform von Datensätzen (Klasse data.frame), der gewöhnlich am besten geeigneten Struktur für empirische Daten.
Daniel Wollschläger
Kapitel 4. Befehle und Daten verwalten
Zusammenfassung
Für Datenanalysen, die über wenige Teilschritte hinausgehen, ist die interaktive Arbeitsweise meist nicht sinnvoll, in der sich eingegebene Befehle mit der von R erzeugten Ausgabe auf der Konsole abwechseln. Stattdessen lässt sich die Auswertung automatisieren, indem alle Befehle zunächst zeilenweise in eine als Skript bezeichnete Textdatei geschrieben werden, die dann ihrerseits von R komplett oder in Teilen ausgeführt wird. Analoges gilt für die Verwaltung empirischer Daten: Gewöhnlich werden diese nicht von Hand auf der Konsole eingegeben, sondern in separaten Dateien gespeichert – sei es in R, in Programmen zur Tabellenkalkulation oder in anderen Statistikpaketen.
Daniel Wollschläger
Kapitel 5. Hilfsmittel für die Inferenzstatistik
Zusammenfassung
Bevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse vorgestellt werden, ist es notwendig Hilfsmittel bereitzustellen, auf die viele dieser Funktionen zurückgreifen. Dazu gehören die Syntax zur Formulierung linearer Modelle sowie einige Familien statistischer Verteilungen von Zufallsvariablen, die bereits bei der Erstellung zufälliger Werte in Erscheinung getreten sind (vgl. Abschn. 2.4.4). Zudem ist die Bedeutung wichtiger inhaltlicher Begriffe zu klären, die im Kontext inferenzstatistischer Tests häufig auftauchen.
Daniel Wollschläger
Kapitel 6. Korrelations- und Regressionsanalyse
Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression bezieht sich auf den linearen Zusammenhang von Variablen, um mit seiner Hilfe Variablenwerte einer Zielvariable (des Kriteriums) durch die Werte anderer Variablen (der Prädiktoren) vorherzusagen. Für beide Verfahren lassen sich auch inferenzstatistisch testbare Hypothesen über ihre Parameter aufstellen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2010; Hays, 1994), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2004; Fox & Weisberg, 2011b).
Daniel Wollschläger
Kapitel 7. Parametrische Tests für Dispersions- und Lageparameter von Verteilungen
Zusammenfassung
Häufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen derselben Varianz vorliegen. Bevor auf Tests zum Vergleich von Erwartungswerten selbst eingegangen wird, sollen deshalb zunächst jene Verfahren vorgestellt werden, die sich mit der Prüfung statistischer Voraussetzungen befassen (vgl. auch Abschn. 8.1). Für die statistischen Grundlagen dieser Themen vgl. die hierauf spezialisierte Literatur (Eid et al., 2010; Hays, 1994; Kirk, 1995; Maxwell & Delaney, 2004).
Daniel Wollschläger
Kapitel 8. Klassische nonparametrische Methoden
Zusammenfassung
Wenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht. Für solche Situationen hält der Bereich der nonparametrischen Statistik Methoden bereit, deren Voraussetzungen gewöhnlich weniger restriktiv sind und die auch bei kleinen Stichproben zur Auswertung infrage kommen (Agresti, 2007; Bortz, Lienert & Boehnke, 2010; Büning & Trenkler, 1994). Insbesondere für (gemeinsame) Häufigkeiten kategorialer Variablen und ordinale Daten1 sind viele der folgenden Methoden geeignet.
Daniel Wollschläger
Kapitel 9. Resampling-Verfahren
Zusammenfassung
Resampling-Verfahren kommen für eine Vielzahl von Tests infrage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung eines Schätzers für einen theoretischen Parameter bzw. die gesuchte Verteilung einer Teststatistik. Diese Verteilung kann aus verschiedenen Gründen unbekannt sein: So sind etwa die in parametrischen Tests gemachten Annahmen, unter denen ihre Teststatistik eine bekannte Verteilung aufweist, nicht immer zu rechtfertigen. In vielen klassischen nonparametrischen Verfahren ist die Verteilung der Teststatistik zwar im Prinzip exakt zu ermitteln, praktisch aber der Rechenaufwand dafür zu hoch.
Daniel Wollschläger
Kapitel 10. Multivariate Verfahren
Abstract
Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen. Solche Fragestellungen sind mit multivariaten Verfahren zu bearbeiten (Backhaus, Erichson, Plinke & Weiber, 2011; Härdle & Simar, 2007; Mardia, Kent & Bibby, 1980). Aus diesem Themengebiet kann hier nur die Umsetzung einiger grundlegender, als bekannt vorausgesetzter Methoden vorgestellt werden. Abschnitt 11.6.8 und insbesondere 11.8 thematisieren Möglichkeiten, Diagramme zur Veranschaulichung multivariater Daten zu erzeugen.
Daniel Wollschläger
Kapitel 11. Diagramme erstellen
Zusammenfassung
Daten lassen sich in R mithilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. In R werden zwei Arten von Grafikfunktionen unterschieden: Sogenannte High-Level-Funktionen erstellen eigenständig ein komplettes Diagramm inkl. Achsen, während sog. Low-Level-Funktionen lediglich ein bestimmtes Element einem bestehenden Diagramm hinzufügen. Einen kurzen Überblick über die Gestaltungsmöglichkeiten vermittelt demo(graphics).
Daniel Wollschläger
Kapitel 12. R als Programmiersprache
Zusammenfassung
Wie eingangs dieses Buches erwähnt, bietet R nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das seinerseits sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können. Eine ausführliche Behandlung des Themas sei der hierauf spezialisierten Literatur überlassen (Chambers, 2008; Ligges, 2009).
Daniel Wollschläger
Backmatter
Metadaten
Titel
Grundlagen der Datenanalyse mit R
verfasst von
Daniel Wollschläger
Copyright-Jahr
2012
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-642-25800-8
Print ISBN
978-3-642-25799-5
DOI
https://doi.org/10.1007/978-3-642-25800-8