Zum Inhalt

Statistische Datenanalyse im Journalismus

Fallstudien und wissenschaftliche Anforderungen zum Einsatz fortgeschrittener statistischer Methoden

  • 2022
  • Buch

Über dieses Buch

Dieses Buch zeigt anhand von journalistischen Fallbeispielen, warum und wie fortgeschrittene statistische Analysemethoden eingesetzt werden können, um aussagekräftige journalistische Informationen aus Daten zu extrahieren. Gleichzeitig setzt das Buch einen Anforderungsrahmen für die datenjournalistische Arbeit bezüglich Datenkompetenz und -visualisierung, dem Einsatz von Algorithmen sowie daten-ethischen Anforderungen und der Überprüfung externer Studien.

Ziel ist es, die Qualität und Aussagekraft datenjournalistischer Arbeiten zu verbessern, welche, neben der angemessenen Erfassung und Aufbereitung von Daten, wesentlich von einer adäquaten Datenanalyse abhängen. Aber wie statistisch arbeiten Datenjournalist:innen heute eigentlich? Und wie statistisch können oder sollten sie arbeiten, um den Ansprüchen ihrer Leserschaft in Sachen Verständlichkeit gerecht zu werden, auch mit Blick auf deren unterschiedliches mathematisch-statisches Vorwissen? Das Buch zielt darauf ab, diese Fragen zu beantworten, indem es weiterführende statistische Methoden anhand von Fallstudien untersucht. Es verdeutlicht, warum diese Methoden auch im journalistischen Kontext oftmals problemangemessener sind und tiefer gehende Erkenntnisse liefern als vereinfachte Analysen und Basismethoden. Die Fallstudien decken dabei die wichtigsten statistischen Methoden ab: Verteilungen und Tests, Klassifikation, Regression, Zeitreihenanalyse, Clusteranalyse, Analyse von sequentiellen Daten ohne direkten Zeitbezug, Verwendung von Vorwissen und geplante Studien.

Inhaltsverzeichnis

  1. Frontmatter

  2. Einführung, Konzept und Grundlagen

    1. Frontmatter

    2. Kapitel 1. Einführung

      Claus Weihs
      Das Kapitel beleuchtet die wachsende Bedeutung der Datenjournalistik und die Notwendigkeit einer adäquaten Datenanalyse. Es untersucht verschiedene datenanalytische Studientypen wie Beobachtungsstudien und geplante Studien, sowie statistische Modelle und deren Beurteilungsmethoden. Besonderes Augenmerk wird auf die Anforderungen an Datenjournalisten und die Herausforderungen bei der Anwendung statistischer Methoden gelegt. Das Buch bietet eine umfassende Diskussion und praktische Anwendungen, die das Verständnis und die Anwendung statistischer Methoden in der Datenjournalistik vertiefen.
    3. Kapitel 2. CRISP-DM - Ein Konzept für die journalistische Datenanalyse?

      Anna Behrend
      Das Kapitel behandelt die Frage, ob der Data-Mining-Standardprozess CRISP-DM für den Datenjournalismus geeignet ist. Es wird festgestellt, dass CRISP-DM viele Gemeinsamkeiten mit den Arbeitsabläufen im Datenjournalismus aufweist, aber die Analysemethoden im Datenjournalismus oft einfacher sind. Experteninterviews zeigen, dass CRISP-DM als Leitlinie für Anfänger nützlich sein könnte, aber im professionellen Alltag zu starr ist. Die Besonderheit des Textes liegt in der tiefgehenden Analyse der Praxisrelevanz von CRISP-DM für den Datenjournalismus, basierend auf Interviews mit erfahrenen Datenjournalisten.
    4. Kapitel 3. Data Literacy

      Katja Ickstadt, Henrik Müller, Henrike Weinert
      Das Kapitel untersucht die Relevanz von Data Literacy im Journalismus und wie diese Kompetenz in die journalistische Ausbildung integriert werden kann. Es wird erläutert, wie Journalisten Daten intelligent nutzen können, um relevante und fundierte Berichte zu erstellen. Besonders hervorgehoben wird die Notwendigkeit eines kritischen Umgangs mit Daten und die Bedeutung von Data Literacy als Grundkompetenz für Journalisten. Das Kapitel beschreibt auch das DaCoNet-Konzept der TU Dortmund, das Data Literacy in die universitäre Bildung integriert, und betont die fortlaufende Notwendigkeit, sich in neue Problemstellungen einzuarbeiten, um relevant und informiert berichten zu können.
    5. Kapitel 4. Datengrafiken zwischen Nutzwert und Design

      Was gelungene Visualisierungen im Datenjournalismus auszeichnet - und was dafür zu beachten ist. Christina Elmer
      Das Kapitel 'Datengrafiken zwischen Nutzwert und Design' untersucht die Rolle von Datenvisualisierungen im Datenjournalismus. Es wird betont, dass Datengrafiken nicht nur valide und konzis erstellt, sondern auch hochwertig und interessant gestaltet sein müssen, um ein breites Publikum zu erreichen. Besondere Aufmerksamkeit wird dabei auf die Perspektive der Nutzer gelegt, um sicherzustellen, dass die Grafiken auch von Personen ohne Expertise verstanden werden können. Weiterhin wird die Bedeutung inhaltlicher Qualität und optischer Anreize hervorgehoben, um die Herausforderungen der Datenvisualisierung im Journalismus zu meistern. Das Kapitel bietet praktische Tipps und Beispiele, wie Datenjournalisten ihre Grafiken nutzerzentriert entwickeln und gestalten können, um die Berichterstattung zu bereichern und das Vertrauen in den Journalismus zu stärken.
    6. Kapitel 5. Algorithmen im Fokus

      Warum Datenjournalisten mit Algorithmen arbeiten - und sie in ihren Recherchen hinterfragen. Christina Elmer
      Dieser Fachbeitrag untersucht die Rolle von Algorithmen im modernen Journalismus und die Bedeutung ihrer kritischen Hinterfragung. Datenjournalisten nutzen Algorithmen zur Beschaffung, Analyse und Visualisierung von Daten, was ihre Recherchen vertieft und den Nutzwert erhöht. Besonders herausfordernd sind die methodischen Anforderungen, wenn eigene Datensätze generiert werden. Der Beitrag betont die Notwendigkeit interdisziplinärer Kooperationen und die Bedeutung von Experimenten zur Überprüfung algorithmischer Entscheidungen. Ein besonderes Augenmerk liegt auf der Transparenz und den ethischen Implikationen von Algorithmen, wie am Beispiel des Schufa-Algorithmus gezeigt. Die Recherche zu Algorithmen erfordert ein tiefes Verständnis ihrer Funktionsweise und ihrer potenziellen Verzerrungen, um die Auswirkungen auf die Gesellschaft zu beleuchten. Der Beitrag zeigt, wie Journalisten durch innovative Methoden und interdisziplinäre Zusammenarbeit komplexe algorithmische Systeme durchdringen und deren Einfluss auf die Gesellschaft aufdecken können.
  3. Fallstudien

    1. Frontmatter

    2. Kapitel 6. (Bedingte) Verteilung und statistische Tests

      Claus Weihs, Marcel Pauly
      Das Kapitel behandelt die Relevanz bedingter Verteilungen beim Vergleich von Verteilungen, insbesondere im Kontext der Altersstruktur von Parlamenten. Es wird gezeigt, wie bedingte Verteilungen die Vergleichbarkeit von Verteilungen verbessern und wie Abstandsmaße wie der Kolmogorov-Smirnov-Abstand und die Totalvariation verwendet werden können, um Verteilungsabweichungen zu untersuchen. Die Fallstudie zur Altersstruktur von Parlamenten verdeutlicht, wie junge und ältere Menschen in europäischen Parlamenten unterrepräsentiert sind und wie statistische Tests genutzt werden können, um diese Unterschiede zu quantifizieren und zu bewerten. Die Anwendung von Dichtefunktionen und Verteilungsfunktionen zur Darstellung der Verteilungen wird ebenfalls detailliert erläutert, ebenso wie die Bedeutung von statistischen Tests zur Bestimmung der Signifikanz von Verteilungsunterschieden.
    3. Kapitel 7. Zusammenhangsanalyse: Klassifikation

      Claus Weihs, Patrick Stotz
      Das Kapitel untersucht die Zusammenhangsanalyse und Klassifikation, insbesondere die Vorhersage von AfD-Hochburgen bei der Bundestagswahl 2017. Dabei werden Entscheidungsbäume verwendet, um wirtschaftliche und soziale Bedingungen zu analysieren. Die Analyse zeigt, dass in AfD-Hochburgen relativ wenige Ausländer wohnen und dass die Unionsparteien in Wahlkreisen mit niedriger Arbeitslosigkeit erfolgreich sind. Weiterhin wird eine Re-Analyse durchgeführt, bei der alle vier Strukturmerkmale Arbeitslosenquote, Durchschnittseinkommen, Ausländeranteil und Bevölkerungsdichte gemeinsam verwendet werden, um AfD-Hochburgen zu charakterisieren. Die Verwendung von Klassifikationsbäumen ermöglicht eine anschauliche und interpretierbare Vorhersage der Wahlverhalten. Besonders interessant ist die detaillierte Darstellung der Klassifikationsregeln und die Bewertung der Modelle durch Fehlerraten und Konfusionsmatrizen. Die Ergebnisse zeigen, dass die Vorhersage von AfD-Hochburgen durch die Berücksichtigung zusätzlicher Merkmale wie Kraftfahrzeuge pro 1000 Einwohner und Anteil älterer Einwohner verbessert werden kann. Dieses Kapitel bietet wertvolle Einblicke für Datenwissenschaftler und Datenjournalisten, die die Vorhersage von Wahlverhalten und die Interpretation von Entscheidungsbäumen vertiefen möchten.
    4. Kapitel 8. Zusammenhangsanalyse: Regression

      Ana Moya, Marie-Louise Timcke, Claus Weihs
      Das Kapitel 'Zusammenhangsanalyse: Regression' untersucht die Anwendung von Regressionsmodellen zur Vorhersage von Wahlergebnissen basierend auf soziodemografischen Daten. Im Fokus steht die Bundestagswahl 2017, bei der das Team von Zeit Online Regressionsanalysen durchführte, um die Wahlergebnisse vorherzusagen. Die Analyse vergleicht das Vorgehen von Journalisten und Statistikern und zeigt auf, wie statistische Methoden wie Regressionsbäume und Random Forests genutzt werden können, um wichtige Einflussvariablen zu identifizieren. Besonders interessant ist die Diskussion über die Angemessenheit der einfachen linearen Regression und die Herausforderungen bei der Interpretation von Korrelationen. Das Kapitel schließt mit einer Re-Analyse, die alternative Methoden wie Data Mining und logistische Modelle untersucht, um die Genauigkeit und Interpretierbarkeit der Ergebnisse zu verbessern.
    5. Kapitel 9. Zeitreihenanalyse: Modellentwicklung über die Zeit

      Claus Weihs
      Das Kapitel 'Zeitreihenanalyse: Modellentwicklung über die Zeit' befasst sich mit der Analyse und Vorhersage der COVID-19-Infektionszahlen in Deutschland und Italien während der ersten Welle der Pandemie. Die Autoren untersuchen, wie sich Methoden und Vorhersagen über die Zeit ändern und welche Modelle am besten geeignet sind, um die Stagnation der Infektionszahlen vorherzusagen. Besonderes Augenmerk wird auf die Veränderungen der Modelle und die Anpassung der Vorhersagen gelegt, wobei sowohl exponentielles als auch logistisches Wachstum betrachtet wird. Die Einführung von Gompertz-Modellen zur besseren Abbildung der realen Daten zeigt die Herausforderungen und Notwendigkeiten der Modellentwicklung in dynamischen Pandemie-Situationen. Die Analyse umfasst auch die Untersuchung der Reproduktionszahl und die Gewichtung von Beobachtungen, um die Modelle an die aktuellen Daten anzupassen. Die Ergebnisse zeigen, wie sich die Vorhersagen im Laufe der Zeit verändern und welche Modelle sich als am besten geeignet erweisen, um die Entwicklung der Pandemie zuverlässig vorherzusagen.
    6. Kapitel 10. Gruppenbildung: Clusteranalyse

      Claus Weihs
      Das Kapitel 'Gruppenbildung: Clusteranalyse' untersucht die Analyse von Bestsellerlisten im Buchmarkt, insbesondere die Platzierungen in den SPIEGEL-Bestsellerlisten für Hardcover Belletristik und Sachbücher. Es wird gezeigt, wie statistische Methoden wie Clusteranalyse und Glättungsverfahren genutzt werden, um typische Verläufe von Platzierungen zu identifizieren und zu interpretieren. Die Autoren nutzen Daten von Buchtiteln, die mindestens 52 Wochen in den Bestsellerlisten standen, und analysieren deren Platzierungen. Besonders interessant ist die Untersuchung der Unterschiede zwischen Belletristik und Sachbüchern in Bezug auf die Verweildauern und die Einflüsse des Erscheinungsmonats auf die Karriereverläufe. Die Ergebnisse der Analyse werden in Entscheidungsbäumen visualisiert, die eine klare Trennung der Cluster ermöglichen. Die Studie liefert wertvolle Erkenntnisse für Verlage und Fachjournalisten, die die Dynamik von Bestsellerlisten besser verstehen möchten.
    7. Kapitel 11. Sequentielle Daten: Analyse von Radverkehrsnetzen

      Claus Weihs, Lilia Michailov
      Zusammenfassung
      In diesem Kapitel zeigen wir einen Vergleich verschiedener Netze von Fahrradrouten auf der Basis von GPS-Koordinaten. Ziel ist die Identifikation von Lücken im Radnetz der Stadt Berlin. Für eine Bestandsaufnahme der Nutzung des Fahrradnetzes wird ein Maß entwickelt, das die Übereinstimmung verschiedener Fahrradrouten quantifiziert. Mit Hilfe eines Dichtequotienten werden anschließend Bereiche in Berlin identifiziert, die viel mit dem Fahrrad befahren werden, aber wenig auf Radwegen.
    8. Kapitel 12. Datenerhebung: Verwendung von Vorwissen

      Claus Weihs, Tanja Hernández Rodríguez
      Das Kapitel befasst sich mit der Datenerhebung und -analyse zur Bestimmung der wöchentlichen Gesamtarbeitszeit von Universitätsprofessoren. Es vergleicht zwei statistische Ansätze: einen frequentistischen und einen bayesianischen. Der bayesianische Ansatz integriert Vorwissen aus früheren Studien, um die Repräsentativität der Daten zu erhöhen. Die empirische Bayes-Methode wird detailliert erläutert, einschließlich der Bestimmung von a-priori und a-posteriori Verteilungen. Die Ergebnisse zeigen, dass die Berücksichtigung von Vorwissen zu plausibleren und präziseren Prognosen führt. Das Kapitel schließt mit einem Kommentar, der die Relevanz der Bayes-Analyse im Journalismus diskutiert.
    9. Kapitel 13. Geplante Studien

      Claus Weihs, Gerret von Nordheim
      Das Kapitel demonstriert die Möglichkeiten statistischer Versuchsplanung in der journalistischen Wirkungsforschung. Es wird gezeigt, wie geplante Studien in der Wirtschaftsjournalistik durchgeführt werden können, um die Wahrnehmungskluft zwischen ökonomischen Experten und Bürgern zu verringern. Dabei werden verschiedene Faktoren und deren Einfluss auf die Glaubwürdigkeit datenjournalistischer Texte untersucht. Ein Schwerpunkt liegt auf der Anwendung von mehrfaktoriellen Designs, die es ermöglichen, Wechselwirkungen zwischen den Einflussmerkmalen zu analysieren. Konkrete Beispiele und empirische Untersuchungen illustrieren die praktische Anwendung dieser Methoden.
  4. Qualitätsstandards

    1. Frontmatter

    2. Kapitel 14. Datenethik im Journalismus

      Detlef Steuer, Ursula Garczarek
      Das Kapitel 'Datenethik im Journalismus' untersucht die ethischen Herausforderungen des Datenjournalismus und wie der Pressekodex als Leitfaden für den Umgang mit Daten im Journalismus dienen kann. Die Autoren betonen die Parallelen zwischen Datenwissenschaften und Journalismus und zeigen, wie ethische Fragen im Kontext der COVID-19-Pandemie behandelt werden können. Besondere Aufmerksamkeit wird der Rolle von Zahlen und Fakten sowie der Vermeidung von Datenmanipulation und -wringen geschenkt. Das Kapitel endet mit einer Diskussion über die Anwendbarkeit des Pressekodex auf die Datenwissenschaften und die Notwendigkeit einer Selbstregulierung in diesem Bereich.
    3. Kapitel 15. Qualitätsstandards: Checklisten als Hilfsmittel

      Holger Wormer
      Das Kapitel stellt die Bedeutung von Checklisten als Hilfsmittel für Journalisten heraus, um die Qualität von Studien und Experteneinschätzungen zu bewerten. Es wird erläutert, wie diese Checklisten Journalisten helfen können, die Glaubwürdigkeit von wissenschaftlichen Informationen zu überprüfen, auch wenn sie keine speziellen Vorkenntnisse in Statistik oder Wissenschaft besitzen. Das Kapitel enthält praktische Anleitungen und strukturierte Arbeitsmethoden, die in einem internen Rechercheleitfaden für den WDR erarbeitet wurden. Es werden verschiedene Checklisten vorgestellt, darunter eine für die Bewertung von Experten und eine für die Prüfung von Studien. Diese Checklisten ermöglichen es Journalisten, schnell und effizient die Plausibilität von wissenschaftlichen Informationen zu überprüfen und so die Qualität ihrer Berichte zu erhöhen. Das Kapitel betont die Notwendigkeit eines pragmatischen Vorgehens, insbesondere in der Aus- und Weiterbildung von Journalisten, und bietet konkrete Vorschläge für die Integration dieser Checklisten in den journalistischen Alltag.
    4. Kapitel 16. Daten und R-Programme

      Claus Weihs
      Der Anhang stellt die wesentlichen Daten und R-Programme vor, die den Fallstudien in den Kapiteln 6 bis 12 zugrunde liegen. Dabei werden die relevanten Daten und Programme detailliert dargestellt, um Datenjournalisten die Möglichkeit zu geben, die Analysen selbst nachzuvollziehen. Besonders hervorgehoben wird die Notwendigkeit, die Software R zu installieren und die entsprechenden Bibliotheken zu aktivieren, um die Programme auszuführen. Die Daten und Programme sind so strukturiert, dass sie teilweise aufeinander aufbauen und daher in der angegebenen Reihenfolge durchgeführt werden müssen. Ein besonderes Augenmerk wird auf die Fallstudie 1 gelegt, die sich mit der Altersstruktur von Parlamenten beschäftigt und Daten aus Deutschland, Rumänien und Schweden verwendet.
  5. Backmatter

Titel
Statistische Datenanalyse im Journalismus
Herausgegeben von
Prof. Dr. Claus Weihs
Copyright-Jahr
2022
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-64693-9
Print ISBN
978-3-662-64692-2
DOI
https://doi.org/10.1007/978-3-662-64693-9

Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.