Skip to main content

2018 | Buch

Datenvisualisierung mit R

111 Beispiele

insite
SUCHEN

Über dieses Buch

Dieses Buch führt in die Grundlagen der Gestaltung von Präsentationsgrafiken mit der Open Source Software R ein, die hinsichtlich der Visualisierungsmöglichkeiten praktisch keine Wünsche offen lässt und sich zunehmend als Standard im Bereich der Statistiksoftware etabliert. Anhand von 111 vollständigen Skript-Beispielen lernen Sie, wie Sie Balken- und Säulendiagramme, Bevölkerungspyramiden, Lorenzkurven, Streudiagramme, Zeitreihendarstellungen, Radialpolygone, Gantt-Diagramme, Profildiagramme, Heatmaps, Bumpcharts, Mosaik- und Ballonplots sowie eine Reihe verschiedener thematischer Kartentypen mit dem Base Graphics System von R erstellen. Für jedes Beispiel werden reale Daten verwendet sowie die Abbildung und deren Programmierung Schritt für Schritt erläutert.

Das Buch ist damit ein wertvolles Nachschlagewerk für eine Fülle von Anwendungsfällen der Datenvisualisierung, zu deren traditionellen Anwendungsbereichen in Wissenschaft und Marketing vermehrt auch neue Gebiete wie Big-

Data-Analysen oder Datenjournalismus hinzukommen.

In der vorliegenden Auflage wurden Beispiele zu Cartogrammen, Chord-Diagrammen und Netzwerken sowie ein neues Kapitel zu interaktiven Visualisierungen mit Javascript aufgenommen.

Der Autor

Thomas Rahlf arbeitet als Direktor in der Gruppe Qualitäts- und Verfahrensmanagement bei der Deutschen Forschungsgemeinschaft und ist Lehrbeauftragter an der Universität Bonn. Er hat über Methodologien der Statistik und Ökonometrie promoviert, ist Mitglied im Editorial Board der Zeitschrift Cliometrica und Herausgeber einer Historischen Statistik von Deutschland. Den Themen Open Source, Datendesign und -visualisierung gilt seit vielen Jahren sein Interesse.

Inhaltsverzeichnis

Frontmatter
1. Daten für alle
Zusammenfassung
Art und Umfang von Daten, unsere Einstellung zu ihnen sowie ihre Verfügbarkeit haben sich in den vergangenen Jahren grundlegend gewandelt. Noch nie gab es so viele Daten wie heute. Noch nie waren sie so leicht verfügbar. Und noch nie waren die Möglichkeiten der Analyse, Aufbereitung und Präsentation größer.
Manche Wissenschaftler, wie etwa der Mathematiker Stephen Wolfram, glauben, dass man den Prozess der Datenanalyse weitgehend automatisieren kann, und sprechen in diesem Zusammenhang sogar von einer Demokratisierung der Wissenschaft. Andere, wie Googles Chefökonom Hal Varian, meinen hingegen, dass dafür mehrere Fähigkeiten erlernt werden müssen und diese zukünftig zentrale Schlüsselqualifikationen darstellen: „The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it’s going to be a hugely important skill in the next decades (…)“.
Thomas Rahlf

Grundlagen und Technik

Frontmatter
2. Aufbau und technische Voraussetzungen
Zusammenfassung
Bevor wir uns der konkreten Umsetzung in R zuwenden, wollen wir zunächst einige Erläuterungen zum Aufbau von Abbildungen voranstellen. Nach zwei Beispielen für die unterschiedliche Perzeption von Grafiken folgt eine Definition der Elemente von Abbildungen anhand schematischer Übersichten, die wir in Anlehnung an das Grafikdesign als „Gestaltungsraster“ bezeichnen. Anschließend folgen Erläuterungen zu wichtigen „Hilfselementen“ von Abbildungen, den verwendeten Schriften und Symbolen sowie der Farbe.
Thomas Rahlf
3. Umsetzung in R
Zusammenfassung
Auf den offiziellen Internet-Plattformen von R lassen sich mittlerweile über 4000 Pakete, also Zusammenstellungen spezieller Funktionen und Erweiterungen, herunterladen. Manche Pakete stellen über tausend Funktionen bereit. Manche Funktionen, wie zum Beispiel die für unser Thema so wichtige Funktion par(), können über 80 Argumente entgegennehmen. Am Anfang mutet ein solches System daher wie ein Dschungel oder Labyrinth an.
Wir werden in diesem Buch eine sehr gezielte Auswahl daraus verwenden, die sich für die Erstellung der Beispiele als notwendig oder hilfreich erwiesen hat. Natürlich können wir keine vollständige Einführung in R geben. Dafür gibt es mittlerweile eine Vielzahl guter Bücher und Webseiten.
Thomas Rahlf
4. Über R hinaus
Zusammenfassung
R bietet umfassende Möglichkeiten zur Gestaltung statistischer Abbildungen. Dennoch ist es sinnvoll, zur ergänzenden Bearbeitung der Abbildungen gelegentlich zwei weitere Programme hinzuzuziehen: LaTeX und Inkscape. Beiden Programme sind unter Open-Source-Lizenzen frei verfügbar.
Thomas Rahlf
5. Zu den Beispielen
Zusammenfassung
Versucht man eine Systematisierung statistischer Visualisierungen, liegt es nahe, entweder von der Anzahl der dargestellten Variablen und ihrem Skalenniveau auszugehen oder von der Geometrie. Schauen wir uns dazu skizzenartig einige gängige Darstellungsformen in Abb. 5.1 an.
Die ersten drei Grafiken zeigen Säulen oder Balken. Damit können eine oder mehrere Variablen dargestellt werden, sowohl kategoriale Variablen, wie Anzahlen, als auch metrische, wie z. B. Durchschnitte. Gleiches gilt für Linien, die in Form eines Profildiagramms (4) Punkte von Kategorien abbilden, oder Zeitreihen (5), die Anzahlen oder statistische Kenngrößen im Zeitverlauf darstellen. Streudiagramme (6) setzen zwei metrische Variablen zueinander in Beziehung, sie können aber auch eine dritte kategoriale Variable enthalten, die farblich oder durch verschiedene Symbole gekennzeichnet wird. Weiterhin kann mit der Variation der Punktgröße eine dritte metrische Variable Berücksichtigung finden. Bei Diagrammen auf radialen Achsen (7, 8 und 9) können sowohl Linien als auch Flächen verwendet werden; damit werden sowohl eine Ausprägung mehrerer Variablen als auch mehrere Ausprägungen einer Variablen abgebildet.
Thomas Rahlf

Beispiele

Frontmatter
6. Kategoriale Daten
Zusammenfassung
Die Abbildung einfacher Häufigkeiten oder von Kennwerten wie Prozenten oder Mittlelwerten gehört sicher zu den am weitesten verbreiteten Visualisierungen. Daher wollen wir hiermit beginnen.
Thomas Rahlf
7. Verteilungen
Zusammenfassung
Die Abbildung zeigt die Verteilung des Frauen-/Männerverhältisses in den Kreisen der Bundesländer Brandenburg und Rheinland-Pfalz. Bei Histogrammen ist die Wahl der Klasseneinteilungen wesentlich. Wenn wie hier von einer Normalverteilung oder zumindest einer symmetrischen Verteilung ausgegangen wird, sollte der Mittelwert auch in der Mitte der Abbildung dargestellt werden und die Spannweite der X-Achse in beide Richtungen gleich groß sein. Werden zwei Verteilungen übereinandergelegt, sollte der Mittelwerte einer Verteilung als Ausgangspunkt genommen werden. Die Spannweite muss dann so gewählt werden, dass sie beide Verteilungen vollständig abbildet. Wenn die Abbildungen übereinandergelegt werden, bietet sich eine transparente Färbung an, so dass die Schnittmenge als dritte Farbe sichtbar ist. Auf Achsenlinien kann verzichtet werden. Da es sich um stetige Variablen handelt, sind die X-Achsenteilstriche nicht zwingend an den Klassenmitten angebracht.
Thomas Rahlf
8. Zeitreihen
Zusammenfassung
Zur Abbildung: Zeitreihen sollten in aller Regel durch Linien abgebildet werden. In Ausnahmefällen, insbesondere bei kurzen Reihen, ist unter Umständen auch eine Darstellung mit Säulen möglich. Die Zeitdimension sollte jedoch immer waagerecht verlaufen. Statt der Verwendung von waagerechten Gitternetzlinien werden die Säulen in der Farbe des Hintergrundes durchbrochen. Das erleichtert die Orientierung und erspart uns „Chart Junk“. Insbesondere bei Darstellungen in Geschäftsberichten findet man häufig eine Variante, in der das letzte Jahr farblich und durch eine zusätzliche Beschriftung mit dem Wert besonders hervorgehoben ist. Wenn es sich um wachsende Entwicklungen handelt, kann die Y-Achse auf der rechten Seite angebracht werden, um einen harmonischeren Gesamteindruck zu erzielen. Wenn klar ist, um welche Jahre es sich handelt (weil es zum Bespiel in der Unterüberschrift angegeben ist), kann sich die Beschriftung der X-Achse auf zwei Ziffern für die Jahre beschränken. Bei Jahren vor 2010 muss es natürlich „01“ statt „1“ etc. heißen. Die Y-Skala sollte bei 0 beginnen, sie kann kurz unter dem Maximalwert aufhören. Wenn die Einheit in der Unterüberschrift angegeben wird, muss sie nicht an der Y-Achse wiederholt werden.
Thomas Rahlf
9. Streudiagramme
Zusammenfassung
In einem Streudiagramm können bis zu vier Variablen abgebildet werden: zwei numerische auf der X- und Y-Achse, eine numerische oder ordinale kann die Größe der Punkte definieren und eine nominale kann die Farbe definieren. Ergänzende Elemente können sein:
  • eine Glättung, z. B. eine Regressionsgerade,
  • Beschriftungen einzelner Datenpunkte,
  • ein Mittelwertkreuz,
  • eine Fläche oder Linie (Ellipse), die die bivariate Verteilung kennzeichnet sowie
  • eine Linie, die die einzelnen Punkte miteinander verbindet.
Unabhängig von der Position der Achsenlinien (an den Rändern oder in der Mitte) sollten die Achsenbeschriftungen immer am Rand und nicht mittendrin sein, um den Blick auf die Daten nicht zu beeinträchtigen.
Thomas Rahlf
10. Karten
Zusammenfassung
R eignet sich nicht nur in besonderer Weise für die Erstellung grafischer Darstellungen, sondern auch ganz speziell für Karten. Die Sammelseite http://cran.r-project.org/web/views/Spatial.html listet über hundert Pakete zur Bearbeitung von Geodaten auf.
Thomas Rahlf
11. Illustratives
Zusammenfassung
Die Abbildung zeigt die geradezu frappierende „Leaky Pipeline“, also den mit steigendem Status immer geringer werdenden Frauenanteil in der Wissenschaft. Während Frauen bei den Studierenden noch die Mehrheit darstellen, sinkt ihr Anteil kontinuierlich mit jeder weiteren Stufe. Bei den C4-/W3-Professuren lag er 2005 nur noch bei 10 Prozent.
Thomas Rahlf
12. Interaktive Visualisierung mit JavaScript: Highcharts und Mapael
Zusammenfassung
Will man animierte, dynamische oder interaktive Visualisierungen erstellen, führte lange Zeit kaum ein Weg an Adobes Flash vorbei. Mittlerweile hat sich jedoch ein Wandel vollzogen: Mit der ungeahnten Dynamik, die JavaScript in den letzten Jahren erlebt und mit der Möglichkeit, mit Canvas Pixel- oder mit SVG sogar Vektorgrafiken direkt im Browser darzustellen und zu animieren, stehen nun sehr mächtige alternative Werkzeuge bereit. Wikipedia listet fast 40 JavaScript-Baukästen zur Visualisierung auf. D3 gehört dabei sicher zu den prominentesten. Wer sich einmal die spektakulären Beispiele von Mike Bostok angesehen hat, der ahnt, dass hier ein schier unerschöpfliches Potential für zukünftige Datenvisualisierungen schlummert. Kein Wunder, dass es mittlerweile rund ein Dutzend Bücher alleine zu D3 gibt. Im Vergleich zu statischen Visualisierungen ist der Programmieraufwand hier allerdings deutlich höher. Man muss sich mit vier verschiedenen Sprachen/Formaten beschäftigen (HTML, CSS, SVG, JavaScript), und die Anzahl der Programmzeilen ist erheblich größer als beispielsweise bei R.
Thomas Rahlf
Backmatter
Metadaten
Titel
Datenvisualisierung mit R
verfasst von
Dr. Thomas Rahlf
Copyright-Jahr
2018
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-54820-2
Print ISBN
978-3-662-54819-6
DOI
https://doi.org/10.1007/978-3-662-54820-2

Premium Partner