Skip to main content

2020 | OriginalPaper | Buchkapitel

Die Nutzung von Webdaten in den Sozialwissenschaften

verfasst von : Simon Munzert, Dominic Nyhuis

Erschienen in: Handbuch Methoden der Politikwissenschaft

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Das Kapitel bietet einen Überblick der Webdatensammlung für die sozialwissenschaftliche Forschung. Zu diesem Zweck wird nach einem praktischen Beispiel eine Übersicht der grundlegenden Webtechnologien geboten, um in einem zweiten Schritt einen vertiefenden Blick auf das Web Scraping einerseits und Programmierschnittstellen andererseits zu werfen. Die praktische Umsetzung der Webdatensammlung wird mit Code-Beispielen in der Programmiersprache R illustriert. Nach der praktischen Einführung werden Potenziale und Herausforderungen der webbasierten Sozialwissenschaft am Beispiel ausgewählter Anwendungen aus der aktuellen Forschungsliteratur diskutiert. Abschließend werden verschiedene technische und konzeptionelle Problemstellungen der Webdatensammlung dargelegt und einige weiterführende Literaturhinweise für die vertiefte Auseinandersetzung mit den Themen des Kapitels geboten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Trotz ihrer engen Verwandtschaft ist das Interesse der Sozialwissenschaft häufig besser mit den Begriffen des Web Scraping oder des Web Harvesting beschrieben. Hier steht die Sammlung einer bestimmten Materialmenge für die weitere Analyse im Vordergrund, während beim Web Crawling, das auch unter dem Begriff des Web Spidering diskutiert wird, das Anliegen eher in der Indexierung von Webseiten und den Beziehungsnetzwerken zwischen Seiten besteht. So machen sich Web Crawler die internen und externen Verlinkungen auf einer Webseite zunutze, um das Beziehungsgeflecht zwischen verschiedenen Seiten zu erfassen. Diese Unterscheidung schließt freilich nicht aus, dass es durchaus sozialwissenschaftliche Anwendungen gibt, die sich Techniken des Web Crawling zunutze machen, etwa in der Analyse von Beziehungsnetzwerken in einem bestimmten Politikfeld (Ackland und O’Neil 2011; McNutt und Pal 2011).
 
2
Den Code für diese Übung haben wir in folgendem GitHub-Archiv hinterlegt: https://​github.​com/​simonmunzert/​munzert-nyhuis-webdaten.
 
3
Die Details der Schritte werden in Abschn. 3 erläutert.
 
4
Die Abweichung von der Größe des 18. Deutschen Bundestags mit seinen 630 Mitgliedern ergibt sich durch Nachrücker für ausscheidende Abgeordnete.
 
5
Die ersten vier Einträge unterscheiden sich von den ersten vier Einträgen zuvor, da wir im Zuge des Downloads neue Namen für die HTML-Seiten nach der Konvention Vorname_Nachname.html vergeben. Die heruntergeladenen Dokumente auf unserer Festplatte sind also anders sortiert als die Einträge auf der Index-Seite der Wikipedia.
 
6
Der PageRank-Algorithmus wurde 1996 von den Google-Gründern Larry Page und Sergey Brin entwickelt, der später zur Grundlage der Suchmaschine wurde.
 
7
Die Bedeutung von Programmierschnittstellen für moderne Web-Infrastrukturen geht weit über die Bedürfnisse der automatischen Datensammlung hinaus. Auch Anwendungen von Drittanbietern, die auf Plattformen wie Twitter oder Facebook aufsetzen, machen sich die Zugangs- und Abfragemöglichkeiten von APIs zunutze, beispielsweise der bekannte Twitter-Client Tweetbot.
 
8
Einen Überblick bietet das Projekt rOpenSci (https://​ropensci.​org/​).
 
9
Im Original „volume, velocity, variety, vinculation, and validity“ (Monroe 2013, S. 1).
 
10
Vergleiche hierzu ausführlicher Munzert (2018).
 
11
Die begleitende Webseite ist frei zugänglich unter http://​www.​r-datacollection.​com.
 
Literatur
Zurück zum Zitat Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.CrossRef Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.CrossRef
Zurück zum Zitat Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.CrossRef Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.CrossRef
Zurück zum Zitat Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.CrossRef Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.CrossRef
Zurück zum Zitat Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.CrossRef Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.CrossRef
Zurück zum Zitat Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.CrossRef Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.CrossRef
Zurück zum Zitat Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.CrossRef Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.CrossRef
Zurück zum Zitat Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC. Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC.
Zurück zum Zitat Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.CrossRef Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.CrossRef
Zurück zum Zitat King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.CrossRef King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.CrossRef
Zurück zum Zitat King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.CrossRef King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.CrossRef
Zurück zum Zitat Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.CrossRef Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.CrossRef
Zurück zum Zitat Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.CrossRef Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.CrossRef
Zurück zum Zitat McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.CrossRef McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.CrossRef
Zurück zum Zitat Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290. Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290.
Zurück zum Zitat Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt. Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt.
Zurück zum Zitat Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly. Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly.
Zurück zum Zitat Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.CrossRef Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.CrossRef
Zurück zum Zitat Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.CrossRef Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.CrossRef
Zurück zum Zitat Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley. Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley.
Zurück zum Zitat Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.CrossRef Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.CrossRef
Zurück zum Zitat Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos. Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos.
Zurück zum Zitat Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.CrossRef Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.CrossRef
Zurück zum Zitat Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin. Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin.
Zurück zum Zitat Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.CrossRef Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.CrossRef
Zurück zum Zitat Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.CrossRef Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.CrossRef
Zurück zum Zitat Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly. Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly.
Metadaten
Titel
Die Nutzung von Webdaten in den Sozialwissenschaften
verfasst von
Simon Munzert
Dominic Nyhuis
Copyright-Jahr
2020
DOI
https://doi.org/10.1007/978-3-658-16936-7_22