Skip to main content
Top

2019 | OriginalPaper | Chapter

11. Datenvisualisierung mit ggplot2

Author : Sebastian Sauer

Published in: Moderne Datenanalyse mit R

Publisher: Springer Fachmedien Wiesbaden

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Ein Bild sagt mehr als 1000 Worte? Oder vielleicht doch nicht? Diese Fragen werden zu Beginn – wie sollte es anders sein – anhand einer Datenvisualisierung erörtert. Dann lernen Sie einige der umfangreichen Funktionen des Grafikpakets ggplot2. Einfache pragmatische Aspekte stehen im Vordergrund: Welche Diagramme bieten sich für welchen Zweck an? Was ist die Logik der Syntax von ggplot2? Wie kann man die bereits erlernten Techniken des Datenjudos sinnvoll für die Visualisierung verwenden?

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Footnotes
1
Eine coole Variante mit der gleichen Botschaft findet sich hier: https://​www.​autodeskresearch​.​com/​publications/​samestats; bzw. mit einer Animation hier: https://​d2f99xq7vri1nk.​cloudfront.​net/​DinoSequentialSm​aller.​gif; vgl. Matejka und Fitzmaurice (2017).
 
2
„gg“ steht für „grammer of graphics“ nach einem Buch von Wilkinson (2006); „plot“ steht für „to plot“, also ein Diagramm erstellen („plotten“); vgl. https://​en.​wikipedia.​org/​wiki/​Ggplot2.
 
3
Edward Tufte gilt als Grand Seigneur der Datenvisualisierung; er hat mehrere lesenswerte Bücher zu dem Thema geschrieben. Auch Clevelands Ansichten sind weitflächig rezipiert worden (vgl. Cleveland (1993)).
 
4
Mit glimpse(movies).
 
5
1: year; 2: budget; 3: Punkte; 4: movies.
 
6
Achtung, man kann sich leicht vertippen: Nicht qqplot(), nicht ggplot2(), nicht gplot(), sondern qplot() ist der richtige Name des Befehls.
 
7
mosaic bietet auch Diagramme vom Typ lattice.
 
8
8 Variablen, alle numerisch.
 
9
mosaic::inspect(anscombe).
 
10
Für jede der relevanten Variablen kann ein Befehl dieser Art verwendet werden: mosaic::sd( ~ y1, data = anscombe).
 
11
mosaic::cor(x1 ~ y1, data = anscombe).
 
12
Die deskriptiven Statistiken für x bzw. y sind praktisch identisch zwischen den vier Teil-Datensätzen.
 
13
Zum Beispiel gf_abline(), gf_density(), gf_histogram(), gf_boxplot().
 
14
%>% gf_smooth(group = ~1).
 
15
Nein, die Glättungslinie ist eine Gerade bei mosaic.
 
16
gf_point(budget ~ year, data = movies).
 
17
gf_point(budget ~ year, data = movies) %>% gf_smooth().
 
18
Z. B. mit tally() oder count().
 
19
geom_point() wird verändert zu geom_point(alpha = 1/100).
 
20
aes(x = budget, y = rating) wird verändert zu aes(x = budget, y = rating, color = Jahrzehnt).
 
22
Wenn Sie niemanden finden, schicken Sie mir eine E-Mail.
 
23
Andere Geome, die in Frage kämen, sind Punkte, verwackelte Punkte (geom_jitter), Violinenplots oder Histogramme. Punkte als Geom haben das Problem, dass es zu Overplotting kommen kann. Violinen sind ähnlich wie Boxplots, aber noch informationsreicher. Histogramme sind weniger gut geeignet, um Gruppen zu vergleichen.
 
24
qplot(x = budget, geom = ″​histogram″​, data = movies, facets = ~factor(Jahrzehnt)).
 
25
Der Boxplot ist besser geeignet als das Histogramm, um mehrere Verteilungen vergleichend zu präsentieren. Durch die gleiche Ausrichtung der Boxplots fällt es dem Auge leichter, Vergleiche anzustellen im Vergleich zu den Histogrammen.
 
26
data(wo_men, package = ″​pradadata″​); qplot(x = shoe_size, data = wo_men, bins = 5); qplot(x = shoe_size, data = wo_men, bins = 50).
 
27
R, R, R, F, R, R, R, R, R, F.
 
Metadata
Title
Datenvisualisierung mit ggplot2
Author
Sebastian Sauer
Copyright Year
2019
DOI
https://doi.org/10.1007/978-3-658-21587-3_11