Skip to main content

Tipp

Weitere Kapitel dieses Buchs durch Wischen aufrufen

2021 | OriginalPaper | Buchkapitel

9. Data Pipelines in Big Data Analytics – Fallbeispiel Religion in der US Politik

verfasst von : Ulrich Matter

Erschienen in: Big Data Analytics

Verlag: Springer Fachmedien Wiesbaden

Zusammenfassung

Am Anfang jeder Datenanalyse steht die Beschaffung und Aufbereitung der Daten in ein Format, welches für statistische Verfahren geeignet ist. Mit dem starken Zuwachs an digitalen Datenbeständen und der Vielfalt an digitalen Datenquellen und der damit verbundenen Vielfalt an hochdimensionalen Datenstrukturen ist dieser erste Teil einer Datenanalyse herausfordernder geworden. Die saubere Planung und Implementierung von Data Pipelines hilft in der Praxis mit diesen Herausforderungen umzugehen. Während Data Pipelines heutzutage im Data Engineering die Grundlage vieler Datenanwendungen sind, ist das Konzept in der wirtschafts- und sozialwissenschaftlichen Forschung noch wenig verbreitet. Dieser Beitrag diskutiert das Potenzial von Data Pipelines für die angewandte empirische Forschung mit dem Fokus auf die sozialwissenschaftliche Datenanalyse (im Kontrast zur Datenapplikationsentwicklung) basierend auf Big Data aus dem programmable Web. Anhand eines Fallbeispiels mit Daten aus der US Politik wird das Data Pipeline Konzept für Big Data Analytics in der wirtschafts- und sozialwissenschaftlichen Forschung Schritt für Schritt aufgezeigt.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Siehe bspw. (Christensen und Miguel 2018) für eine detaillierte Übersicht über vergangene und aktuelle Praktiken und Empfehlungen hinsichtlich der Reproduzierbarkeit volkswirtschaftlicher Forschung.
 
2
Siehe bspw. die Empfehlungen/Standards für Projektmitarbeiter/Assistierende des Gentzkow Shapiro Lab (GSLAB): https://​github.​com/​gslab-econ/​ra-manual/​wiki.
 
3
Die Begriffe programmable Web, Web of Data, und Semantic Web werden hier synonym und im Sinne von Swartz (2013) verwendet.
 
4
Siehe bspw. (Stocker et al. 2010) für eine Betrachtung neuer Geschäftsmodelle im programmable Web.
 
5
Siehe bspw. den Bericht der Stiftung Datenschutz zur praktischen Umsetzung des Rechts auf Datenübertragbarkeit (https://​stiftungdatensch​utz.​org/​fileadmin/​Redaktion/​Datenportabilita​et/​studie-datenportabilita​et.​pdf): Im Rahmen der Digitalisierungsbemühungen im Gesundheitswesen, wird unter anderem mittels APIs versucht, die Portabilität von Behandlungsdaten zu erhöhen. Der Zugang zu solchen APIs ist entsprechend den geltenden Regeln zu Patientendaten stark eingeschränkt.
 
6
Siehe bspw. (Ismail et al. 2019) für eine Übersicht über die Anwendung von Data Pipelines in der verarbeitenden Industrie.
 
8
Die folgende Illustration ist absichtlich einfach gehalten. In der Praxis können professionell aufgesetzte Data Pipelines für moderne Datenanwendungen selbstverständlich viel mehr und komplexere Schritte bei der Sammlung und ersten Verarbeitung der Rohdaten beinhalten.
 
9
Siehe die Literaturübersicht in (Oldmixon 2009). Beispiele für Beiträge in diesem Bereich sind (McTague und Pearson-Merkowitz 2013); (Guth 2014); (Newman et al. 2016) und (Oldmixon 2017).
 
10
Ähnliche Plattformen gibt es seither auch im deutschsprachigen Raum; bspw. der Wahl-O-Mat in Deutschland (http://​www.​bpb.​de/​politik/​wahlen/​wahl-o-mat/​) oder smartvote in der Schweiz (www.​smartvote.​ch).
 
11
Die hier verwendete Data Pipeline zur Beschaffung und Aufbereitung der Daten könnte auch parallel implementiert werden, was den Prozess um ein Vielfaches beschleunigen würde. Darauf wurde hier bewusst verzichtet, da die benutzte API ursprünglich nicht für diesen Verwendungszweck konzipiert wurde. Zu viele Anfragen von der gleichen Maschine in zu kurzer Zeit würden den Web Server, auf welchem die API läuft, langsamer machen und somit die Qualität der API als Dienstleistung für andere Web-Anwendungen schmälern. Dies ist ein weiterer Hinweis darauf, wie wichtig es ist, bei der Nutzung des programmable Web als Datenquelle für sozialwissenschaftliche Forschungsprojekte, den Hintergrund und ursprünglichen Zweck der verwendeten APIs zu verstehen und zu respektieren.
 
12
Zum Bible Belt werden üblicherweise die Südstaaten gezählt; insb. Alabama (AL), Mississippi (MS), Tennessee (TN), Missouri (MO), Kentucky (KY), West Virginia (WV) und Virginia (VA).
 
Literatur
Zurück zum Zitat Burden BC (2007) Personal roots of representation. Princeton University Press, Princeton CrossRef Burden BC (2007) Personal roots of representation. Princeton University Press, Princeton CrossRef
Zurück zum Zitat Christensen G, Miguel E (2018) Transparency, reproducibility, and the credibility of economics research. J Econ Lit 56(3):920–980 CrossRef Christensen G, Miguel E (2018) Transparency, reproducibility, and the credibility of economics research. J Econ Lit 56(3):920–980 CrossRef
Zurück zum Zitat Duke JT, Johnson BL (1992) Religious affiliation und congressional representation. J Sci Study Relig 31(3):324–329 CrossRef Duke JT, Johnson BL (1992) Religious affiliation und congressional representation. J Sci Study Relig 31(3):324–329 CrossRef
Zurück zum Zitat Fastnow C, Tobin GJ, Rudolph TJ (1999) Holy roll calls: religious tradition and voting behavior in the U.S. house. Soc Sci Q 80(4):687–701 Fastnow C, Tobin GJ, Rudolph TJ (1999) Holy roll calls: religious tradition and voting behavior in the U.S. house. Soc Sci Q 80(4):687–701
Zurück zum Zitat Feigelson ED, Babu GJ (2012) Big data in astronomy. Significance 9:22–25 CrossRef Feigelson ED, Babu GJ (2012) Big data in astronomy. Significance 9:22–25 CrossRef
Zurück zum Zitat Green JC, Guth JL (1991) Religion, representatives, and roll calls. Legis Stud Q 16(4):571–584 CrossRef Green JC, Guth JL (1991) Religion, representatives, and roll calls. Legis Stud Q 16(4):571–584 CrossRef
Zurück zum Zitat Guth JL (2014) Religion in the American Congress: the case of the US house of representatives, 1953–2003. Relig State Soc 42(2-3):299–313 CrossRef Guth JL (2014) Religion in the American Congress: the case of the US house of representatives, 1953–2003. Relig State Soc 42(2-3):299–313 CrossRef
Zurück zum Zitat Ismail A, Truong HL, Kastner W (2019) Manufacturing process data analysis pipelines: a requirements analysis and survey. J Big Data 6(1):1 CrossRef Ismail A, Truong HL, Kastner W (2019) Manufacturing process data analysis pipelines: a requirements analysis and survey. J Big Data 6(1):1 CrossRef
Zurück zum Zitat Lazer D, Pentland A, Adamic L, Aral S, Barabási AL, Brewer D, Christakis N, Contractor N, Fowler J, Gutmann M, Jebara T, King G, Macy M, Roy D, Van Alstyne M (2009) Computational social science. Science 323(5915):721–723 CrossRef Lazer D, Pentland A, Adamic L, Aral S, Barabási AL, Brewer D, Christakis N, Contractor N, Fowler J, Gutmann M, Jebara T, King G, Macy M, Roy D, Van Alstyne M (2009) Computational social science. Science 323(5915):721–723 CrossRef
Zurück zum Zitat Luo J, Wu M, Gopukumar D, Zhao Y (2016) Big data application in biomedical research and health care: a literature review. Biomed Inform Insights 8:1 Luo J, Wu M, Gopukumar D, Zhao Y (2016) Big data application in biomedical research and health care: a literature review. Biomed Inform Insights 8:1
Zurück zum Zitat Mansbridge J (2009) A “selection model” of political representation. J Polit Philos 17(4):369–398 CrossRef Mansbridge J (2009) A “selection model” of political representation. J Polit Philos 17(4):369–398 CrossRef
Zurück zum Zitat Matter U (2018) RWebData: a high-level interface to the programmable web. J Open Res Softw 6(1):1–12 Matter U (2018) RWebData: a high-level interface to the programmable web. J Open Res Softw 6(1):1–12
Zurück zum Zitat Matter U, Stutzer A (2015a) pvsR: an open source interface to big data on the American political sphere. PLoS ONE 10(7):e0130501 CrossRef Matter U, Stutzer A (2015a) pvsR: an open source interface to big data on the American political sphere. PLoS ONE 10(7):e0130501 CrossRef
Zurück zum Zitat Matter U, Stutzer A (2015b) The role of lawyer-legislators in shaping the law: evidence from voting on tort reforms. J Law Econ 58(2):357–384 CrossRef Matter U, Stutzer A (2015b) The role of lawyer-legislators in shaping the law: evidence from voting on tort reforms. J Law Econ 58(2):357–384 CrossRef
Zurück zum Zitat McTague J, Pearson-Merkowitz S (2013) Voting from the pew: the effect of senators’ religious identities on partisan polarization in the US senate. Legis Stud Q 38(3):405–430 CrossRef McTague J, Pearson-Merkowitz S (2013) Voting from the pew: the effect of senators’ religious identities on partisan polarization in the US senate. Legis Stud Q 38(3):405–430 CrossRef
Zurück zum Zitat Newman B, Guth JL, Cole W, Doran C, Larson EJ (2016) Religion und environmental politics in the US house of representatives. Environ Polit 25(2):289–314 CrossRef Newman B, Guth JL, Cole W, Doran C, Larson EJ (2016) Religion und environmental politics in the US house of representatives. Environ Polit 25(2):289–314 CrossRef
Zurück zum Zitat Oldmixon EA (2002) Culture wars in the congressional theater: how the U.S. house of representatives legislates morality, 1993–1998. Soc Sci Q 83(3):775–787 CrossRef Oldmixon EA (2002) Culture wars in the congressional theater: how the U.S. house of representatives legislates morality, 1993–1998. Soc Sci Q 83(3):775–787 CrossRef
Zurück zum Zitat Oldmixon EA (2009) Religion and legislative politics. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg), The Oxford handbook of religion and American politics. Oxford University Press, Oxford Oldmixon EA (2009) Religion and legislative politics. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg), The Oxford handbook of religion and American politics. Oxford University Press, Oxford
Zurück zum Zitat Oldmixon EA (2017) Religious representation und animal welfare in the U.S. senate. J Sci Study Relig 56(1):162–178 CrossRef Oldmixon EA (2017) Religious representation und animal welfare in the U.S. senate. J Sci Study Relig 56(1):162–178 CrossRef
Zurück zum Zitat R Core Team (2018) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria R Core Team (2018) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria
Zurück zum Zitat Richardson JT, Fox SW (1972) Religious affiliation as a predictor of voting behavior in abortion reform legislation. J Sci Study Relig 11(4):347–359 CrossRef Richardson JT, Fox SW (1972) Religious affiliation as a predictor of voting behavior in abortion reform legislation. J Sci Study Relig 11(4):347–359 CrossRef
Zurück zum Zitat Richardson L, Amundsen M (2013) RESTful web APIs. O’Reilly, Sebastopol Richardson L, Amundsen M (2013) RESTful web APIs. O’Reilly, Sebastopol
Zurück zum Zitat Smidt CE, Kellstedt LA, Guth JL (2009) The role of religion in American politics: explanatory theories and associated analytical and measurement issues. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg) The Oxford handbook of religion and American politics. Oxford University Press, Oxford Smidt CE, Kellstedt LA, Guth JL (2009) The role of religion in American politics: explanatory theories and associated analytical and measurement issues. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg) The Oxford handbook of religion and American politics. Oxford University Press, Oxford
Zurück zum Zitat Stocker A, Tochtermann K, Scheir, P (2010) Die Wertschöpfungskette der Daten: Eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD Prax Wirtsch inform 47(5): 94–104 Stocker A, Tochtermann K, Scheir, P (2010) Die Wertschöpfungskette der Daten: Eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD Prax Wirtsch inform 47(5): 94–104
Zurück zum Zitat Swartz A (2013) Aaron Swartz’s a programmable web: an unfinished work. In: Hendler J, Ding Y (Hrsg) Synthesis lectures on the semantic web: theory and technology. Morgan & Claypool Publishers, San Rafael Swartz A (2013) Aaron Swartz’s a programmable web: an unfinished work. In: Hendler J, Ding Y (Hrsg) Synthesis lectures on the semantic web: theory and technology. Morgan & Claypool Publishers, San Rafael
Zurück zum Zitat Wald KD, Wilcox C (2006) Getting religion: has political science rediscovered the faith factor? Am Polit Sci Rev 100(4):523–529 CrossRef Wald KD, Wilcox C (2006) Getting religion: has political science rediscovered the faith factor? Am Polit Sci Rev 100(4):523–529 CrossRef
Zurück zum Zitat Wolf C, Luvaul LC, Onken CA, Smillie JG, White MC (2018) Developing data processing pipelines for massive sky surveys – lessons learned from SkyMapper. In Astronomical Society of the Pacific Conference Series, 512, S 289 Wolf C, Luvaul LC, Onken CA, Smillie JG, White MC (2018) Developing data processing pipelines for massive sky surveys – lessons learned from SkyMapper. In Astronomical Society of the Pacific Conference Series, 512, S 289
Zurück zum Zitat Yamane D, Oldmixon EA (2006) Religion in the legislative arena: affiliation, salience, advocacy, und public policymaking. Legis Stud Q 31(3):433–460 CrossRef Yamane D, Oldmixon EA (2006) Religion in the legislative arena: affiliation, salience, advocacy, und public policymaking. Legis Stud Q 31(3):433–460 CrossRef
Zurück zum Zitat Zhang Y, Zhao Y (2015) Astronomy in the big data era. Data Sci J 14:11 CrossRef Zhang Y, Zhao Y (2015) Astronomy in the big data era. Data Sci J 14:11 CrossRef
Metadaten
Titel
Data Pipelines in Big Data Analytics – Fallbeispiel Religion in der US Politik
verfasst von
Ulrich Matter
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-32236-6_9

Premium Partner