Zum Inhalt

Datenbearbeitung und -visualisierung mit R

Mit einer Einführung in die simulationsbasierte Inferenz und Machine Learning

  • 2025
  • Buch

Über dieses Buch

Ziel des Lehrbuchs ist das Einüben und Umsetzen wichtiger Kompetenzen beim Datenhandling. So bestehen die ersten Schritte einer jeden empirischen Studie darin, die Daten für die eigene Analyse vorzubereiten. Das Bearbeiten (filtern, selektieren und ergänzen von Variablen) und das Strukturieren (gruppieren, zusammenfassen, zusammenfügen und bereinigen von Variablen und Datensätzen) der Daten legen dabei die fundamentale Grundlage jeder Empirie. Weiterführende Schritte zur Visualisierung und Analyse von Daten erlauben schließlich bedürfnisorientierte Gestaltungen der eigenen Datenanalyse.

Aus didaktischer Sicht ist dieses Lehrbuch ein “Mitmach”-Buch. Die Leser und Leserinnen des Lehrbuchs können hierzu die verschiedenen Datensätze und Skripte von der Webseite des Verlages herunterladen und lernen von Beginn an und Schritt für Schritt, wie wir die Daten bearbeiten, strukturieren, visualisieren und analysieren.

Inhaltsverzeichnis

  1. Frontmatter

  2. 1. Einführung

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Dieses Lehrbuch führt in die statistische Verwendung der Software R und der Entwicklungsumgebung RStudio ein. In erster Linie sollen in diesem Lehrbuch weniger die statistischen Methoden, sondern wichtige Kompetenzen für das Datenhandling stehen: Daten bearbeiten, strukturieren, visualisieren und analysieren. Das Lehrbuch gliedert sich in 6 Kapitel.
  3. 2. Daten bearbeiten und strukturieren mit tidyverse

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Vor einer jeden Datenanalyse steht das Bearbeiten und Strukturieren des Datensatzes. Denn für gewöhnlich liegen echte Datensätze nicht in einer sauberen Form vor, in welchen man direkt mit einer Analyse starten kann. Deshalb lernen wir beim Bearbeiten (Abschn. 2.1) des Datensatzes, unsere Daten zu filtern, zu selektieren und neue Variablen zu bilden. Das Strukturieren (Abschn. 2.2) des Datensatzes erlaubt dann das Gruppieren, Zusammenfassen, Zusammenfügen und das Transformieren sowie Bereinigen der Daten. Als Ergebnis unseres 2. Kapitels erzeugen wir in Abschn. 2.3 schließlich unseren Datensatz, den wir in den nachfolgenden Kapiteln zur Datenvisualisierung nutzen wollen.
  4. 3. Daten visualisieren mit ggplot

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Zur Visualisierung laden wir das „tidyverse“-Paket greifen auf unseren finalen Datensatz aus Abschn. 2.3 zurück. Wir laden beide Datensätze: (1) In der Regel verwenden wir den Datensatz „studenten“, der den Datensatz auf „insgesamt“ filtert und damit nicht nochmal zwischen den Fachgebieten differenziert und (2) den Datensatz „fachgebiete“, der den Datensatz auf ohne „insgesamt“ filtert und damit eine Differenzierung zwischen den Fachgebieten erlaubt.
  5. 4. Weiterführende Visualisierungen mit ggplot, gganimate und stargazer

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Die betrachteten Visualisierungen in Kap. 3 zeigen nur einen Bruchteil der vielfältigen Möglichkeiten. Vor diesem Hintergrund sollen weiterführende Visualisierungen mit ggplot, animierte Visualisierungen mit gganimate, tabellarische Visualisierungen mit stargazer sowie das Visualisieren und Analysieren von Geodaten mit dem „sf“-Paket weitere Möglichkeiten aufzeigen.
  6. 5. Einführung in die simulationsbasierte Inferenzstatistik und „Machine Learning“ mit R

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Wir laden beide Datensätze: (1) In der Regel verwenden wir den Datensatz „studenten“, der den Datensatz auf „insgesamt“ filtert und damit nicht nochmal zwischen den Fachgebieten differenziert und (2) den Datensatz „fachgebiete“, der den Datensatz auf ohne „insgesamt“ filtert und damit eine Differenzierung zwischen den Fachgebieten erlaubt.
  7. 6. Dokumentation und Zusammenfassung

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Ziel dieses Lehrbuchs ist die Einführung in die Bearbeitung, Strukturierung, Visualisierung und Analyse von Daten mit R. Ein wesentliches Element der empirischen Forschung ist dabei die Dokumentation der Datenanalyse. Neben der Bedeutung der Dokumentation für die Replizierbarkeit der Datenanalyse wird zunächst mit R-Markdown ein nützliches Instrument zur Dokumentation vorgestellt. Eine abschließende Zusammenfassung der zentralen Learnings aus dem Lehrbuch mit einem Ausblick runden diese Einführung ab.
  8. 7. Anhang

    Marc Scheufen, Armin Mertens
    Zusammenfassung
    Öffnen Sie RStudio und machen Sie sich mit der Benutzeroberfläche vertraut. Führen Sie die folgenden Rechenschritte aus, um das Arbeiten mit R zu erlernen.
Titel
Datenbearbeitung und -visualisierung mit R
Verfasst von
Marc Scheufen
Armin Mertens
Copyright-Jahr
2025
Electronic ISBN
978-3-658-48015-8
Print ISBN
978-3-658-48014-1
DOI
https://doi.org/10.1007/978-3-658-48015-8

Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.