nach oben

Erschienen in:

2020 | OriginalPaper | Buchkapitel

Die Nutzung von Webdaten in den Sozialwissenschaften

verfasst von : Simon Munzert, Dominic Nyhuis

Erschienen in: Handbuch Methoden der Politikwissenschaft

Verlag: Springer Fachmedien Wiesbaden

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Zusammenfassung

Das Kapitel bietet einen Überblick der Webdatensammlung für die sozialwissenschaftliche Forschung. Zu diesem Zweck wird nach einem praktischen Beispiel eine Übersicht der grundlegenden Webtechnologien geboten, um in einem zweiten Schritt einen vertiefenden Blick auf das Web Scraping einerseits und Programmierschnittstellen andererseits zu werfen. Die praktische Umsetzung der Webdatensammlung wird mit Code-Beispielen in der Programmiersprache R illustriert. Nach der praktischen Einführung werden Potenziale und Herausforderungen der webbasierten Sozialwissenschaft am Beispiel ausgewählter Anwendungen aus der aktuellen Forschungsliteratur diskutiert. Abschließend werden verschiedene technische und konzeptionelle Problemstellungen der Webdatensammlung dargelegt und einige weiterführende Literaturhinweise für die vertiefte Auseinandersetzung mit den Themen des Kapitels geboten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Designing Survey Questions and Choosing Survey Formats

Nächstes Kapitel Real-Time-Response-Messung

Trotz ihrer engen Verwandtschaft ist das Interesse der Sozialwissenschaft häufig besser mit den Begriffen des Web Scraping oder des Web Harvesting beschrieben. Hier steht die Sammlung einer bestimmten Materialmenge für die weitere Analyse im Vordergrund, während beim Web Crawling, das auch unter dem Begriff des Web Spidering diskutiert wird, das Anliegen eher in der Indexierung von Webseiten und den Beziehungsnetzwerken zwischen Seiten besteht. So machen sich Web Crawler die internen und externen Verlinkungen auf einer Webseite zunutze, um das Beziehungsgeflecht zwischen verschiedenen Seiten zu erfassen. Diese Unterscheidung schließt freilich nicht aus, dass es durchaus sozialwissenschaftliche Anwendungen gibt, die sich Techniken des Web Crawling zunutze machen, etwa in der Analyse von Beziehungsnetzwerken in einem bestimmten Politikfeld (Ackland und O’Neil 2011; McNutt und Pal 2011).

Den Code für diese Übung haben wir in folgendem GitHub-Archiv hinterlegt: https://github.com/simonmunzert/munzert-nyhuis-webdaten.

Die Details der Schritte werden in Abschn. 3 erläutert.

Die Abweichung von der Größe des 18. Deutschen Bundestags mit seinen 630 Mitgliedern ergibt sich durch Nachrücker für ausscheidende Abgeordnete.

Die ersten vier Einträge unterscheiden sich von den ersten vier Einträgen zuvor, da wir im Zuge des Downloads neue Namen für die HTML-Seiten nach der Konvention Vorname_Nachname.html vergeben. Die heruntergeladenen Dokumente auf unserer Festplatte sind also anders sortiert als die Einträge auf der Index-Seite der Wikipedia.

Der PageRank-Algorithmus wurde 1996 von den Google-Gründern Larry Page und Sergey Brin entwickelt, der später zur Grundlage der Suchmaschine wurde.

Die Bedeutung von Programmierschnittstellen für moderne Web-Infrastrukturen geht weit über die Bedürfnisse der automatischen Datensammlung hinaus. Auch Anwendungen von Drittanbietern, die auf Plattformen wie Twitter oder Facebook aufsetzen, machen sich die Zugangs- und Abfragemöglichkeiten von APIs zunutze, beispielsweise der bekannte Twitter-Client Tweetbot.

Einen Überblick bietet das Projekt rOpenSci (https://ropensci.org/).

Im Original „volume, velocity, variety, vinculation, and validity“ (Monroe 2013, S. 1).

Vergleiche hierzu ausführlicher Munzert (2018).

Die begleitende Webseite ist frei zugänglich unter http://www.r-datacollection.com.

Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.CrossRef

Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.CrossRef

Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.CrossRef

Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.CrossRef

Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.CrossRef

Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.CrossRef

Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC.

Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.CrossRef

King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.CrossRef

King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.CrossRef

Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.CrossRef

Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.CrossRef

McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.CrossRef

Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290.

Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt.

Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly.

Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.CrossRef

Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.CrossRef

Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley.

Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.CrossRef

Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos.

Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.CrossRef

Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin.

Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.CrossRef

Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.CrossRef

Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly.

Titel: Die Nutzung von Webdaten in den Sozialwissenschaften
verfasst von: Simon Munzert
Dominic Nyhuis
Verlag: Springer Fachmedien Wiesbaden
Buch: Handbuch Methoden der Politikwissenschaft
Print ISBN: 978-3-658-16935-0

Electronic ISBN: 978-3-658-16936-7

Copyright-Jahr: 2020
DOI: https://doi.org/10.1007/978-3-658-16936-7_22