Skip to main content
Erschienen in: International Journal of Data Science and Analytics 1/2024

08.09.2022 | Regular Paper

What can scatterplots teach us about doing data science better?

verfasst von: Wilson Wen Bin Goh, Reuben Jyong Kiat Foo, Limsoon Wong

Erschienen in: International Journal of Data Science and Analytics | Ausgabe 1/2024

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

A scatterplot is often the graph of choice for displaying the relationship between two variables. Scatterplots are useful for exploratory analysis, but can do much more than just identifying correlations. As data sets get larger and more complex, relying solely on “eye power” alone may cause us to miss interesting associations, or worse, make wrong interpretations. We show that by combining scatterplots with statistical and logical reasoning (the sliding window and two-axis median bisection), we may identify interesting associations in a case study of Graduate Record Examination admission versus graduation outcomes, and whether low detectability of proteins in a biological sample are truly associated with low abundance. Due to subjective visual interpretability, we recommend graphing the data using a multitude of visual variables and graph types before concluding the absence of an association. Finally, even if associations are demonstrable, developing causal models that could explain the observed fuzziness and lack of apparent correlations in the scatterplot are helpful for better decision-making and interpretation.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Anhänge
Nur mit Berechtigung zugänglich
Literatur
8.
Zurück zum Zitat Heinrich, J. et al. (2012). The parallel coordinates matrix. EuroVis (Short Papers). Heinrich, J. et al. (2012). The parallel coordinates matrix. EuroVis (Short Papers).
19.
Zurück zum Zitat Wallner, G., Kriglstein, S.: Multivariate visualization of game metrics: an evaluation of hexbin maps. In: Proceedings of the Annual Symposium on Computer-Human Interaction in Play. Association for Computing Machinery (2020) Wallner, G., Kriglstein, S.: Multivariate visualization of game metrics: an evaluation of hexbin maps. In: Proceedings of the Annual Symposium on Computer-Human Interaction in Play. Association for Computing Machinery (2020)
22.
Zurück zum Zitat Heer, J., Bostock, M. (2010). Crowdsourcing graphical perception: using mechanical turk to assess visualization design. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Association for Computing Machinery Heer, J., Bostock, M. (2010). Crowdsourcing graphical perception: using mechanical turk to assess visualization design. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Association for Computing Machinery
23.
Zurück zum Zitat McColeman, C.M., et al.: Rethinking the ranks of visual channels. IEEE Trans. Visual Comput. Graphics 28, 707–717 (2021)CrossRef McColeman, C.M., et al.: Rethinking the ranks of visual channels. IEEE Trans. Visual Comput. Graphics 28, 707–717 (2021)CrossRef
24.
Zurück zum Zitat Yeoh, E.J., et al.: Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Cancer Cell 1, 133–143 (2002)CrossRef Yeoh, E.J., et al.: Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Cancer Cell 1, 133–143 (2002)CrossRef
31.
Zurück zum Zitat Jaber, M. et al.:. A multi-granularity pattern-based sequence classification framework for educational data. In: 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA) (2016) Jaber, M. et al.:. A multi-granularity pattern-based sequence classification framework for educational data. In: 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA) (2016)
36.
Zurück zum Zitat Matejka, J., Fitzmaurice, G.: Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing (2017) Matejka, J., Fitzmaurice, G.: Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing (2017)
Metadaten
Titel
What can scatterplots teach us about doing data science better?
verfasst von
Wilson Wen Bin Goh
Reuben Jyong Kiat Foo
Limsoon Wong
Publikationsdatum
08.09.2022
Verlag
Springer International Publishing
Erschienen in
International Journal of Data Science and Analytics / Ausgabe 1/2024
Print ISSN: 2364-415X
Elektronische ISSN: 2364-4168
DOI
https://doi.org/10.1007/s41060-022-00362-9

Weitere Artikel der Ausgabe 1/2024

International Journal of Data Science and Analytics 1/2024 Zur Ausgabe