Zum Inhalt

Grundlagen der Datenanalyse mit R

Eine anwendungsorientierte Einführung

  • 2020
  • Buch

Über dieses Buch

Dieses Buch liefert eine anwendungsorientierte Einführung in die Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso umfassend wie inferenzstatistische Analysen. Neben klassischen univariaten Verfahren berücksichtigt das Buch nonparametrische Tests, Resampling-Methoden und multivariate Statistik. Zudem deckt es die vielfältigen Möglichkeiten ab, Daten aufzubereiten und Diagramme zu erstellen. Die statistischen Verfahren werden anhand von Beispielen erläutert und an vielen Stellen mit Diagrammen illustriert.

Das Buch richtet sich an alle, die R kennenlernen und in konkreten Aufgabenstellungen einsetzen möchten, ohne bereits über Vorerfahrungen mit befehlsgesteuerten Programmen oder Programmiersprachen zu verfügen.

Für die fünfte Auflage wurde das Buch vollständig aktualisiert: Es bezieht sich nun auf die Version 4.0.0 von R, auch die Auswahl und Darstellung verwendeter Zusatzpakete wurde der dynamischen Entwicklung angepasst. Außerdem wurde insbesondere der Abschnitt zur Datenaufbereitung überarbeitet: Zur stärkeren Ausrichtung auf Data-Science-Anwendungen stellt er nun ausführlich das Paket dplyr vor, enthält eine erweiterte Darstellung von R-Markdown-Dokumenten und bespricht Hinweise zur Reproduzierbarkeit von Auswertungen.

Inhaltsverzeichnis

  1. Frontmatter

  2. Kapitel 1. Erste Schritte

    Daniel Wollschläger
    Zusammenfassung
    R ist eine freie und kostenlose Software-Umgebung zur statistischen Datenanalyse (Ihaka und Gentleman 1996; R Core Team 2019a). R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können.
  3. Kapitel 2. Elementare Dateneingabe und -verarbeitung

    Daniel Wollschläger
    Zusammenfassung
    Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden nach und nach an Komplexität gewinnen.
  4. Kapitel 3. Daten importieren, exportieren, aufbereiten und aggregieren

    Daniel Wollschläger
    Zusammenfassung
    Empirische Daten können auf verschiedenen Wegen in R verfügbar gemacht werden. Zunächst ist es möglich, Werte durch Zuweisungen etwa in Vektoren zu speichern und diese dann zu Datensätzen zusammenzufügen.
  5. Kapitel 4. Zuverlässige und reproduzierbare Datenauswertung

    Daniel Wollschläger
    Zusammenfassung
    R bietet viele Möglichkeiten, die dabei helfen, Datenauswertungen zuverlässig und reproduzierbar zu machen.
  6. Kapitel 5. Hilfsmittel für die Inferenzstatistik

    Daniel Wollschläger
    Zusammenfassung
    Bevor in den kommenden Kapiteln Funktionen zur inferenzstatistischen Datenanalyse besprochen werden, ist es notwendig Hilfsmittel vorzustellen, auf die viele dieser Funktionen zurückgreifen.
  7. Kapitel 6. Lineare Regression

    Daniel Wollschläger
    Zusammenfassung
    Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs.
  8. Kapitel 7. t-Tests und Varianzanalysen

    Daniel Wollschläger
    Zusammenfassung
    Häufig bestehen in empirischen Untersuchungen Hypothesen über Erwartungswerte von Variablen. Viele der für solche Hypothesen geeigneten Tests gehen davon aus, dass bestimmte Annahmen über die Verteilungen der Variablen erfüllt sind, dass etwa in allen Bedingungen Normalverteilungen mit derselben Varianz vorliegen.
  9. Kapitel 8. Regressionsmodelle für kategoriale Daten und Zähldaten

    Daniel Wollschläger
    Zusammenfassung
    Das Modell der linearen Regression und Varianzanalyse (Abschn. 6.3 und 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist.
  10. Kapitel 9. Survival-Analyse

    Daniel Wollschläger
    Zusammenfassung
    Die Survival-Analyse modelliert Überlebenszeiten (Hosmer Jr, Lemeshow & May, 2008; Klein & Moeschberger, 2003). Diese geben allgemein an, wieviel Zeit bis zum Eintreten eines bestimmten Ereignisses verstrichen ist und sollen hier deshalb gleichbedeutend mit Ereigniszeiten sein. Es kann sich dabei etwa um die Zeitdauer handeln, die ein Patient nach einer Behandlung weiter am Leben ist, um die verstrichene Zeit, bis ein bestimmtes Bauteil im Gebrauch einen Defekt aufweist, oder um die Dauer, die ein Kleinkind benötigt, um ein vordefiniertes Entwicklungsziel zu erreichen – z. B. einen Mindestwortschatz besitzt.
  11. Kapitel 10. Klassische nonparametrische Methoden

    Daniel Wollschläger
    Zusammenfassung
    Wenn inferenzstatistische Tests zur Datenauswertung herangezogen werden sollen, aber davon ausgegangen werden muss, dass strenge Anforderungen an die Art und Qualität der erhobenen Daten nicht erfüllt sind, kommen viele konventionelle Verfahren womöglich nicht in Betracht.
  12. Kapitel 11. Resampling-Verfahren

    Daniel Wollschläger
    Zusammenfassung
    Resampling-Verfahren kommen für eine Vielzahl von Tests in Frage, können hier aber nur in Grundzügen vorgestellt werden. Ausgangspunkt ist die gesuchte Verteilung einer Teststatistik \(\hat{\theta }\) – etwa eines Schätzers \(\hat{\theta }\) für einen theoretischen Parameter \(\theta \). Diese Verteilung kann aus verschiedenen Gründen unbekannt sein: So sind etwa die in parametrischen Tests gemachten Annahmen, unter denen ihre Teststatistik eine bekannte Verteilung aufweist, nicht immer zu rechtfertigen. In vielen klassischen nonparametrischen Verfahren ist die Verteilung der Teststatistik zwar im Prinzip exakt zu ermitteln, praktisch aber der Rechenaufwand dafür zu hoch.
  13. Kapitel 12. Multivariate Verfahren

    Daniel Wollschläger
    Zusammenfassung
    Liegen von Beobachtungsobjekten Werte mehrerer Variablen vor, kann sich die Datenanalyse nicht nur auf jede Variable einzeln, sondern auch auf die gemeinsame Verteilung der Variablen beziehen.
  14. Kapitel 13. Vorhersagegüte prädiktiver Modelle

    Daniel Wollschläger
    Zusammenfassung
    Da empirische Daten fehlerbehaftet sind, bezieht die Anpassung eines statistischen Modells immer auch die Messfehler mit ein, die Parameterschätzungen orientieren sich daher zu stark an den zufälligen Besonderheiten der konkreten Stichprobe (overfitting). Die Güte der Passung des Modells lässt sich als Funktion \(f(\cdot )\) der Abweichungen \(E = Y - \hat{Y}\) der Modellvorhersage \(\hat{Y}\) zu den tatsächlichen Werten der vorhergesagten Variable Y quantifizieren. Genauer soll \(\hat{Y'}_{X, Y}(X')\) die folgende Vorhersage bezeichnen: Zunächst wird ein Modell an einer Stichprobe mit Werten für Prädiktoren X und Zielvariable Y (Kriterium) angepasst. In die Vorhersagegleichung mit den Parameterschätzungen dieses Modells werden dann (potentiell andere) Prädiktorwerte \(X'\) eingesetzt, um die Vorhersage \(\hat{Y'}\) zu berechnen, die mit den tatsächlichen Beobachtungen \(Y'\) zu vergleichen sind. f(E) ist die Verlustfunktion, die alle individuellen absoluten Abweichungen \(e_{i}\) auf einen Gesamtwert für die Vorhersagegenauigkeit abbildet.
  15. Kapitel 14. Diagramme erstellen

    Daniel Wollschläger
    Zusammenfassung
    Daten lassen sich in R mit Hilfe einer Vielzahl von Diagrammtypen grafisch darstellen, wobei hier nur auf eine Auswahl der verfügbaren Typen eingegangen werden kann. Für eine umfassende Dokumentation vgl.  Murrell (2018) und Unwin (2015). Während sich dieses Kapitel auf den Basisumfang von R konzentriert, geht Kap. auf das beliebte Zusatzpaket ggplot2 ein Wickham und Sievert (2016).
  16. Kapitel 15. Diagramme mit ggplot2

    Daniel Wollschläger
    Zusammenfassung
    Mit dem Zusatzpaket ggplot2 lassen sich die in Kap. 14 vorgestellten Diagrammtypen ebenfalls erstellen. Dabei ist die Herangehensweise eine grundsätzlich andere: Während der Basisumfang von R für verschiedene Diagrammarten einzelne Funktionen bereitstellt, werden mit ggplot2 alle Diagrammtypen mit einem einheitlichen System erzeugt.
  17. Kapitel 16. Numerische Methoden

    Daniel Wollschläger
    Zusammenfassung
    Numerische Methoden spielen in der Datenanalyse u. a. deswegen eine wichtige Rolle, weil nur in Spezialfällen geschlossene Formeln für die Parameterschätzung existieren, die zu einer bestmöglichen Passung eines statistischen Modells für beobachtete Daten führt. Der Einsatz numerischer Methoden bleibt dem Anwender aber verborgen, weil die typischerweise eingesetzten Funktionen zur Modellanpassung zwar intern auf solchen Methoden beruhen, sie die gewählten Algorithmen dem Anwender aber nicht unmittelbar offen legen.
  18. Kapitel 17. R als Programmiersprache

    Daniel Wollschläger
    Zusammenfassung
    R bietet nicht nur Mittel zur numerischen und grafischen Datenanalyse, sondern ist gleichzeitig eine Programmiersprache, die dieselbe Syntax wie die bisher behandelten Auswertungen verwendet. Das sehr umfangreiche Thema der Programmierung mit R soll in den folgenden Abschnitten nur soweit angedeutet werden, dass nützliche Sprachkonstrukte wie z. B. Kontrollstrukturen verwendet sowie einfache Funktionen selbst erstellt und analysiert werden können.
  19. Backmatter

Titel
Grundlagen der Datenanalyse mit R
Verfasst von
Dr. Daniel Wollschläger
Copyright-Jahr
2020
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-61736-6
Print ISBN
978-3-662-61735-9
DOI
https://doi.org/10.1007/978-3-662-61736-6

Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data, Bild 1 Verspätete Verkaufsaufträge (Sage-Advertorial 3/2026)/© Sage, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen in 2025 und 2026/© amgun | Getty Images