Skip to main content
main-content

Tipp

Weitere Kapitel dieses Buchs durch Wischen aufrufen

Erschienen in:
Buchtitelbild

Open Access 2022 | OriginalPaper | Buchkapitel

3. Digitale Daten und Big Data

verfasst von: Marco Lünich

Erschienen in: Der Glaube an Big Data

Verlag: Springer Fachmedien Wiesbaden

Zusammenfassung

Um die Bedeutung digitaler Daten im sozialen Kontext der Digitalisierung nachvollziehen zu können, muss nun zunächst ein grundlegendes Verständnis dafür hergestellt werden, was Daten und insbesondere digitale Daten ausmacht sowie warum im Kontext digitaler Daten oft von Big Data die Rede ist. Dabei steht zunächst erst einmal die eher technische Definition von Daten im Vordergrund. Doch bereits bei Betrachtung dessen, was gemeinhin unter Big Data verstanden wird, wird in der Literatur die rein technische Abgrenzung aufgeweicht und auch um sozio-technologische Aspekte der großen digitalen Datenbestände erweitert.
Um die Bedeutung digitaler Daten im sozialen Kontext der Digitalisierung nachvollziehen zu können, muss nun zunächst ein grundlegendes Verständnis dafür hergestellt werden, was Daten und insbesondere digitale Daten ausmacht sowie warum im Kontext digitaler Daten oft von Big Data die Rede ist.1 Dabei steht zunächst erst einmal die eher technische Definition von Daten im Vordergrund. Doch bereits bei Betrachtung dessen, was gemeinhin unter Big Data verstanden wird, wird in der Literatur die rein technische Abgrenzung aufgeweicht und auch um sozio-technologische Aspekte der großen digitalen Datenbestände erweitert. Diese Erweiterung der Perspektive auf digitale Daten bringt, wie zu zeigen sein wird, eine Einbettung in den sozialen Kontext also zwingend mit sich, in dem Big Data mithin immer auch als ein sozio-technisches Phänomen verstanden werden müssen. Das liegt auch daran, dass die gängigen Definitionen von Big Data immer auch mit Blick auf ihren Ursprung im Verwertungskontext in Wissenschaft und Wirtschaft zu verstehen sind; zwei Bereiche menschlichen Lebens, die fest im zivilisatorischen Fundament verankert sind und ohne Mensch und Gesellschaft nicht denkbar wären. Die nachfolgenden Abschnitte legen somit den Grundstein für ein umfassendes Verständnis des Phänomens Big Data, das nötig ist, um anschließend den Blick auf die soziale Logik der Datensammlung und -auswertung zu richten. Folglich wird in Abschnitt 3.1 zunächst einmal ein allgemeines Verständnis von (digitalen) Daten im Sinne dieser Arbeit hergestellt. In Abschnitt 3.2 wird anschließend der Zusammenhang zwischen der Entstehung, Speicherung und Auswertung der Daten unter den Vorzeichen digitaler Umwandlung und Dokumentation auf Speichermedien erläutert, die dann mit Hilfe von IuK eingesehen und bearbeitet werden können. Diese Voraussetzung digitaler Datenerzeugung und -speicherung ist der Ausgangspunkt für eine tiefergehende Betrachtung des Ausmaßes und der Besonderheiten der Datenakkumulation, die unter Big Data verstanden wird und deren Einbettung in einen sozialen Zusammenhang dann Gegenstand der Abschnitte 3.4 bis 3.6 ist.

3.1 Der Datenbegriff

Wenn man Big Data beim Wort nimmt, dann geht es vordergründig anscheinend einfach nur um große Mengen an Daten. Kein direkter Hinweis findet sich zunächst zum Informationscharakter, zur Digitalität oder gar zu Techniken der Informationsverarbeitung mit Hilfe von Computern; keine Antworten darauf, wessen Daten gemeint sind, wie diese entstehen und wo und wie diese gespeichert werden sowie ob und wie sie einer wie auch immer gearteten Weiterverarbeitung zugeführt werden. Bevor diese Fragen adressiert werden können, ist an dieser Stelle daher zunächst zu erörtern, was genau eigentlich unter Daten zu verstehen ist, wobei die beiden zentralen Kriterien des Bedeutungsgehalts und des Bedeutungsbezugs des Datenbegriffs in dieser Arbeit im Mittelpunkt stehen und nachfolgend anschaulich einführt werden sollen.
Der informative Bedeutungsgehalt von Daten
Man könnte sich für ein erstes, recht basales – und wie gleich auch deutlich werden wird – verkürztes Verständnis von Daten zunächst einfach vorstellen, dass man sich in einem großen Raum befindet, mit vielen Schränken ähnlich einer Bibliothek, in denen Ordner stehen, worin sich wiederum viele Blätter Papier befinden, die jeweils mit Text oder auch einfach nur Buchstaben, Zahlen oder unbekannten Symbolen bedruckt sind. Wichtig ist dabei jedoch folgendes erstes Charakteristikum, das diese Zeichen zu Daten im Sinne dieser Arbeit macht: Den Angaben, die als Buchstaben, Zahlen oder anderweitigen Symbolen auf dem Speichermedium Papier festgehalten sind und hierbei zunächst lediglich jenen Symbolcharakter haben, kann eine Bedeutung zugewiesen werden, auf deren Grundlage Unterscheidungen getroffen werden können. Sie stellen für Mensch (und auch für Maschine) daher mit Sinn behaftete, bedeutungsvolle Informationen über einen Zustand bereit (Gleick, 2012).2 Es kann dann dahingehend davon ausgegangen werden, dass man die dokumentierten Symbole versteht (bzw. prinzipiell verstehen könnte), also um die Bedeutung der Zeichen wissen kann und diese nun nutzen kann, indem man sie einer kognitiven oder bei einem Computer eben maschinellen Verarbeitung zuführt, die auf Grundlage einer durch diese Daten getroffenen Unterscheidung operiert. Daten haben mithin zunächst ein Bedeutungspotential.
Wenn eine Ärztin stündlich festhält, wie sich die Fiebertemperatur eines Patienten entwickelt, beobachtet und dokumentiert sie von einem Thermometer abgelesene Daten über dessen Zustand. Mit Blick auf die informative Bedeutung dieser Daten besitzt die Ärztin nun Anhaltspunkte über den Status und die Entwicklung des Gesundheitszustands eines Patienten und kann zwischen gesund oder krank unterscheiden sowie im Zeitverlauf zwischen einer gesundheitlichen Verbesserung oder Verschlechterung und weiß so um die spezifische Bedeutung der so getroffenen Unterscheidungen. In Rahmen dieses Beispiels wird neben dem Potential der Bedeutung von Daten dabei ein weiteres essentielles Charakteristikum für den Datenbegriff eingeführt, das weithin als konstitutiv angenommen wird: Daten sind diesem Beispiel folgend dokumentierte Beobachtungen von Tatsachen über die Welt und weisen somit auf den spezifischen Bezug des Bedeutungsgehalts festgehaltener Symbole hin.
Der Bedeutungsbezug von Daten
Unter dem Begriff Daten werden laut Duden auch ganz allgemein „Beobachtungen, Messungen, statistischen Erhebungen“ (Kunkel-Razum et al., 2017) subsumiert. Wenn nachfolgend nun von Daten und insbesondere digitalen Daten gesprochen wird, dann wird der Datenbegriff in eben diesem Sinne der manifest dokumentierten Beobachtung von Tatsachen verstanden. Da jedoch auch ein Musikstück oder ein Video in digitaler Datenform vorliegen kann, wird bereits an dieser Stelle deutlich, dass es unterschiedlich weit gefasste Datenbegriffe geben kann: Einen weitreichenden Datenbegriff, der allein auf die technisch-materielle Dokumentationsform abstellt und mithin bspw. auch kulturelle Produkte umschließt, die in Datenform vorliegen, sowie einen engeren Datenbegriff, der empirisch zu verstehen ist und speziell auf Beobachtungsdaten rekurriert. Wenn nicht anders genannt oder hervorgehoben, wird dabei meistens diesem engen Datenbegriff gefolgt, wenn nachfolgend von Daten in diesem forschungsempirischen Sinne die Rede ist. Doch auch ein weitreichenderer sozio-technischer und kultureller Datenbegriff wird in den folgenden Ausführungen immer dort relevant, wo es um die soziale Bedeutung von Digitaldaten geht. Dabei ist der Datenbegriff dann nicht beliebig gewählt, sondern in seiner vielschichtigen Bedeutung der Bezugspunkt eines besseren und umfassenden Verständnisses des Phänomens Big Data, das sowohl die Gesellschaft betreffen kann (Kolany-Raiser et al., 2018) als auch die eigentliche Forschungsbeschäftigung und ein empirisches Wissenschaftsverständnis umfasst (boyd & Crawford, 2012; Mahrt & Scharkow, 2013).
Es gibt viele Lebensbereiche, in denen vor allem jene Beobachtungsdaten eine immense Bedeutung innehaben, so etwa in der Medizin, im Staatswesen, selbstverständlich in der Wirtschaft und insbesondere auch in der Wissenschaft (Cohen, 2006; Crook & O'Hara, 2011; Hacking, 1990; MacKenzie, 1981; T. M. Porter, 2011). Man erhält so bspw. durch Daten über die wirtschaftliche Güter- und Dienstleistungsproduktion eines Landes einen Einblick in die Verfassung seiner Ökonomie. Ganz gleich, ob die Speicherung bereits für einen gezielten Verwertungszweck geschieht oder die Daten als Nebenprodukt anfallen: Die andauernde Dokumentation, das Festhalten dieser Daten auf einem Speichermedium meint Datenspeicherung und ist somit das Ergebnis fortlaufend festgehaltener Beobachtungen. An diese Speicherung kann dann eine Weiterverarbeitung anschließen, diese muss jedoch nicht zwingend stattfinden. Erfolgt bspw. eine Auswertung der Daten, meint dies oft, jedoch nicht zwangsläufig, dass statistische Zusammenhänge in den Daten aufgezeigt werden und unterschiedliche Daten miteinander in Beziehung gebracht werden. Viel wichtiger ist zunächst jedoch das zuvor erwähnte Moment der Bedeutungsfeststellung auf Grundlage der Beobachtungsdaten, denn diese Bedeutungszuschreibung stößt wiederum weitergehende Handlungsentscheidungen an (Cohen, 2006; T. M. Porter, 2011; Rieder & Simon, 2016). Mit Bezug auf das eingangs eingeführte Beispiel diagnostiziert die Ärztin aus dem Ansteigen der Fieberkurve des Patienten eine Verschlimmerung des Krankheitsverlaufs und sieht sich zu einer Maßnahme wie der Gabe eines fiebersenkenden Medikaments veranlasst.

3.2 Daten und Daten-Speichermedien

Die Speicherung von Daten funktioniert wie im Falle aller menschlich geschaffenen Symbole mit Blick auf die Menschheitsgeschichte zunächst vor allem durch Festhalten von Informationen auf Papier oder anderen ‚analogen‘ Speichermedien (Faulstich, 2006). So wurden in der Schifffahrt Logbücher geführt (Cohen, 2006), in denen allerlei wichtige und nebensächliche Informationen zu Beschaffenheit von See und Schiff dokumentiert sind. Die analoge Speicherung der Daten auf in Aktenordnern gesammelten und verwahrten Unmengen von Papier ist dabei auch weiterhin recht gebräuchlich, wird jedoch nunmehr ergänzt um die digitale Speicherung von Daten.
Ausgehend von Claude Shannons Arbeiten zu einer mathematischen Theorie von Kommunikation (Shannon, 1948) bekam der bis dato unscharfe Begriff der Information eine zählbare Form und wurde forthin quantifizierbar (Shannon & Weaver, 1949). Shannon war somit der Wegbereiter einer neuen Sicht auf Information (Gleick, 2012), prägte hierbei den Begriff Bit und ebnete damit der bis heute gebräuchlichsten Ausdrucksweise von Daten den Weg: binär codierte Sequenzen von Zustandsbeschreibungen, ausgedrückt in 1 oder 0. Er legte den konzeptuellen Grundstein für das, was heutzutage weithin unter digitaler IuK verstanden wird (Guizzo, 2003). Denn gegen Mitte des 20. Jahrhundert bestand nunmehr auch die Möglichkeit, Informationen auf digitalen Speichermedien festzuhalten (Ceruzzi, 2003). Dies führt in Kombination mit Computern, die jegliche Informationen als binär codierte Sequenzen in den digitalen Speicher schreiben und weiterverarbeiten, durch industrielle Massenfertigung zu einem explosionsartigen Anstieg von verfügbaren Datenträgern und Datenverarbeitungsanlagen (Berkeley, 1949; Ifrah, 2001). Daten können nun maschinell und fortlaufend ohne menschliches Zutun automatisiert erhoben und darüber hinaus schnell vervielfältigt werden (Chun & Soderman, 2008; Storsul & Fagerjord, 2008). Informationsverarbeitende IuK, allen voran ebenjener Computer, werden innerhalb weniger Jahrzehnte zentraler Bestandteil menschlicher Gesellschaften. Die zunehmende Nutzung von IuK in unterschiedlichen Lebensbereichen bringt immer auch die Möglichkeit der begleitenden Speicherung und Dokumentation dieser Nutzung mit sich. Wo immer Computertechnik zum Einsatz kommt, fallen nun Digitaldaten an. Aufgrund der fortschreitenden Verbreitung digitaler Medientechnologien wie Laptops, Computer und Smartwatches bezeichnen McAfee und Brynjolfsson (2012) den Menschen, der diese Technologien nutzt, auch als „Walking Data Generator“. Zudem entstehen beim computerisierten Zugriff auf digitale Daten erster Ordnung zusätzlich neue digitale Daten zweiter Ordnung, sogenannte Meta-Daten (Pomerantz, 2015). Neben der Speicherung großer Datenmengen erlauben Computer zudem auch die regelgeleitete Weiterverarbeitung und Analyse der Daten. Moderne Prozessoren, bezeichnenderweise auch Rechner genannt, erlauben mannigfaltige statistische Auswertungen und Datenverarbeitung, wobei die Daten erster und zweiter Ordnung immer wieder zusammengefasst und transformiert werden können. Die Möglichkeit, die Vielzahl an Daten auf digitalen Speichermedien festzuhalten und von hier Techniken der Informationsverarbeitung zuzuführen, legen den Grundstein für das, was mittlerweile gemeinhin unter dem Begriff Big Data verstanden wird, einem Phänomen, bei dem also Daten unter dem Vorzeichen der Digitalisierung in großen Mengen anfallen und produziert werden können. An der Schwelle zum 21. Jahrhundert verdoppeln sich jedes Jahr allein die weltweit verfügbaren wissenschaftlichen Daten (Szalay & Gray, 2006), so dass sinnbildlich von einer Datenflut (engl. ‚Data Deluge‘) gesprochen wird (C. Anderson, 2008; G. Bell et al., 2009).
Die vorhergehenden Ausführungen dienen zunächst einmal einem Grundverständnis für das, was gemeinhin unter Daten zu verstehen ist und wieso insbesondere die Digitalisierung die Entstehung, Speicherung und Auswertung der Daten begünstigt und zu immer größer werdenden Datenbeständen führt. Hieraus lässt sich jedoch noch nicht ableiten, warum genau diese Daten nun gerade eine so große gesellschaftliche Beachtung erfahren und ihnen eine immense Bedeutung zugeschrieben wird, sie gar zu einer neuen Leitwährung stilisiert werden. Hierzu bedarf es einer weitergehenden Betrachtung der Charakteristika und hieraus abgeleiteter Potentiale der Sammlung und Verwertung großer digitaler Datenbestände, die auch als Big Data bezeichnet werden.

3.3 Von digitalen Daten zu Big Data

Die Erläuterung des Wesens von Daten im vorigen Abschnitt, vor allem mit Blick auf die Besonderheiten digitaler Daten und den Voraussetzungen und Möglichkeiten ihrer informationstechnischen Verarbeitung, erlaubt nun den Blick auf das Phänomen Big Data zu richten. Big Data nimmt seinen Ausgangspunkt in der vorrangigen Digitalität von Daten im Zuge der Mitte des 20. Jahrhunderts beginnenden, eingangs beschriebenen Digitalisierung und der hiermit einhergehenden Verbreitung von Computertechnologie (Ceruzzi, 2003; Rid, 2017; Wittpahl, 2017).
Eine der wichtigsten Vorbedingungen für die vermeintliche Explosion an Daten ist jedoch insbesondere das Internet, das eine Vernetzung zwischen Schnittstellen der IuK und den dezentralen Austausch digital codierter Information ermöglicht. Entsprechend definieren B. M. Leiner et al. (2009) auch wie folgt: “The Internet is at once a world-wide broadcasting capability, a mechanism for information dissemination, and a medium for collaboration and interaction between individuals and their computers without regard for geographic location” (S. 23). Als technische Infrastruktur, die aus dem militärischen und wissenschaftlichen Kontext entstammt und von der Advanced Research Projects Agency (ARPA) des US-amerikanischen Verteidigungsministeriums vorangetrieben wurde (Belfiore, 2009), hat sich das Internet ab Ende des vergangenen Jahrtausends weltweit in immer mehr Lebensbereichen fest etabliert. Bedingt durch die technische Infrastruktur des Internets in Kombination mit anderen IuK werden laufend und global Unmengen von digitalen Daten erzeugt, verteilt und weiterverarbeitet (Pentland, 2014; Stephens-Davidowitz, 2017). Zum Beispiel werden heutzutage in so gut wie allen Bereichen des privaten und beruflichen Alltags IuK genutzt, die stetig mit dem Internet verbunden, also online sind. Was mit stationären Computern mit Online-Zugang begann, setzt sich mit dem weitreichenden Gebrauch von Smartphones fort. Im Jahr 2018 nutzen 57 Millionen Menschen in Deutschland solch ein Gerät, das man fast überall hin mitnehmen kann und das jederzeit mit dem Internet verbunden ist (Statista, 2018c). Mit diesem kann man mittlerweile nicht mehr nur telefonieren und Nachrichten austauschen (Gebhardt, 2008), sondern auch Musik hören, Fotos machen und auf einen globalen Informationsspeicher zugreifen.
Nach und nach werden in einem Zusammenspiel kabelloser und miteinander vernetzter Sensorik immer mehr Alltagsgegenstände wie bspw. Haushaltsgeräte ‚online‘ sein und zusätzliche Funktionen und Informationen bereitstellen, für die eine stetige Verbindung zur zuvor beschriebenen technischen Infrastruktur des Internets gegeben sein muss. Diese Entwicklung aus der IuK, bei der Computertechnik allzeit online ist, wird auch als Internet der Dinge (engl. Internet of Things – IOT) bezeichnet (Ashton, 2009; Gubbi et al., 2013). Hierunter fallen Kühlschränke und Heizungssysteme, die mit dem Internet verbunden sind und über dieses, insbesondere via Smartphone, aus der Ferne gesteuert werden können, Befehle empfangen oder versenden können. Die vermeintlichen Vorzüge dieser Vernetzung und den sich hieraus ergebenden Steuerungs- und Optimierungsmöglichkeiten werden unter dem Stichwort Smart Home angepriesen (Harper, 2003). Es wird alleine hierdurch deutlich, dass die stetige Online-Konnektivität technischer Endgeräte und ihrer Sensorik sowie der laufende Kommunikationsaustausch dieser Geräte untereinander und mit den Nutzer*innen das Ausmaß der digitalen Datenentstehung weiter befeuern wird. Folglich gibt es etliche weitere Anwendungsfelder und Verwendungsmöglichkeiten des IOT und laufend kommen neuen Online-Innovationen hinzu (Li et al., 2015). Dies sind nur einige von vielen Beispielen, um zu demonstrieren, in welchem Umfang digitalisiert wird und bei der Nutzung digitaler Medien automatisiert Daten entstehen (Kolany-Raiser et al., 2018; Wittpahl, 2017). Die Automatisierung der Datenerhebung wird dabei bspw. direkt handlungsrelevant beim Aufzeichnen, Analysieren und Reflektieren von und über Daten, die man im Rahmen des Self-Tracking, zur Selbstbeobachtung und -vermessung des eigenen Gesundheitszustands über sich selbst gesammelt hat (Gilmore, 2016; Nafus & Sherman, 2014; Neff & Nafus, 2016). Sie kann sich jedoch auch indirekt bemerkbar machen, etwa, wenn datenbasiert Empfehlungen ausgesprochen werden und Entscheidungen abgenommen werden, z. B. bei personalisierten Angeboten und zielgerichteter Werbung, die durch Algorithmen des maschinellen Lernens möglich werden (Beer, 2017; Mohabbat Kar et al., 2018).
Eine ausführliche Betrachtung des Phänomens Big Data und der Beschreibungsdimensionen, die in der Literatur verwendet werden, legt somit den Grundstein für ein umfassendes Verständnis für die technischen Grundlagen eines zu beschreibenden Mythos Big Data und des sich hieraus gespeisten Glaubenssystems in Bezug auf Big Data, die insbesondere auf die Erwartungen an Erkenntnis- und Nutzengewinn von Big Data abstellen. Hierbei ist trotz der weit zurück zu verfolgenden historischen Entwicklungslinie bereits an dieser Stelle anzumerken, dass Begriff, Verständnis und Bedeutung von Big Data selbst noch recht jung sind, es zwar keine etablierte Definition, jedoch durchaus definitorische Übereinstimmungen gibt. Erste Definitionsansätze sind durch die Entwicklungsdynamiken im Zuge der Digitalisierung folglich noch flexibel und dehnbar. Der folgende Abschnitt nähert sich einer Arbeitsdefinition der essentiellen Wesensmerkmale von Big Data, die Grundlage für die auszuarbeitende Betrachtung von durch Digitalisierung begünstigter Quantifizierung der Gesellschaft und insbesondere hiermit verbundenem Wissenszugewinn und individuellem und gesellschaftlichem Nutzen sein soll. Mit Bezug auf akademische Literatursynthesen und Überblicksartikel wird für diesen Abschnitt eine Aufteilung der Literatur nach Beschreibungsschwerpunkten vorgenommen (Mauro et al., 2016). Abschnitt 3.4 beschäftigt sich daher zunächst mit den technischen Beschreibungsdimensionen von Big Data. Hierauf folgend wird auf die sozio-technischen Konsequenzen eingegangen und insbesondere das Neuartige an Big Data in den Vordergrund gestellt (Abschnitt 3.5). Da Big Data eines von etlichen Schlagworten ist, welches sich derzeit in der öffentlichen Debatte wiederfindet, soll abschließend in Abschnitt 3.6 auf verwandte Phänomene und Entwicklungen eingegangen werden, in deren Rahmen Big Data eine gewichtige Einflussgröße oder wie beim maschinellen Lernen gar eine Grundbedingung darstellen. Ausgehend von dem dann gelegten sozio-technischen Verständnis von Big Data kann schließlich deren soziale Bedeutung für einen Erkenntnis- und Nutzengewinn näher erläutert werden.

3.4 Technische Charakteristika und Beschreibungsdimensionen von Big Data

Eine der ersten Definitionen, ohne dass diese bereits von Big Data gesprochen hat, geht auf einen Gartner-Report von Laney (2001) zurück, in dem dieser drei mit V beginnende Beschreibungsdimensionen, namentlich Volume, Velocity und Variety (übersetzt als: Volumen, Geschwindigkeit und Vielfalt)3 einführt, die die großen Datenmengen charakterisieren, die im Zuge der Digitalisierung fortlaufend entstehen. In der Tradition dieser Alliteration kamen über die Zeit viele weitere mit dem Buchstaben V beginnende Beschreibungsdimensionen hinzu, die auf unterschiedliche Charakteristika der Datenmengen abstellen (Diebold, 2012). Allerdings lässt sich eine weitläufige Verbreitung des Begriffs erst ab 2010 feststellen (Gandomi & Haider, 2015). Während es je nach Betrachtung also etliche zu unterscheidende Beschreibungsdimensionen gibt und mitunter über die exakte Definition von Big Data gestritten wird (Kitchin & McArdle, 2016), beschränken sich die nachfolgenden Ausführungen auf die eingangs erwähnten eher deskriptiven Dimensionen Volumen, Geschwindigkeit und Vielfalt sowie insbesondere auf die in der Literatur für den Verwertungszusammenhang der Daten hervorgehobenen zentralen Dimensionen Veracity und Value. Während die deskriptiven Dimensionen die Daten an sich beschreiben, haben die beiden letztgenannten Dimensionen einen eher sozio-technisch bedeutsamen Charakter, der insofern auf die Qualität von großen digitalen Datenbeständen abstellt, indem deren erwarteten Konsequenzen für Erkenntnis- und Nutzengewinn evaluiert werden (H. Chen & Yan, 2016; Gandomi & Haider, 2015; Wiencierz, 2016). Letztere werden nachfolgend auch als Richtigkeit und Nutzen bezeichnet (siehe Abschnitt 3.5.1 und Abschnitt 3.5.2).
Es bedarf dabei in den folgenden Kapiteln zunächst der Definition der einzelnen Charakteristika von Big Data, um hiervon ausgehend deren jeweilige Bedeutung für eine Betrachtung der sozialen Dimension des Phänomens zu erläutern. Dabei werden zu Illustrationszwecken und für ein besseres Verständnis auch einige prominente Beispiele zum Anwendungskontext von Big Data eingebracht. Für weitere Beispiele zu Anwendungen und Einsatzpotential von Big Data sei an dieser Stelle stellvertretend auf die Ausführungen von Mayer-Schönberger und Cukier (2013), O'Neil (2017), Rudder (2014) und Stephens-Davidowitz (2017) verwiesen.

3.4.1 Das Volumen digitaler Datenentstehung und -verwertung

Das Volumen (Volume) digitaler Datenentstehung und -verwertung betrifft das Ausmaß oder die Größenordnung der Datenmengen, die sich nicht nur einfacher Datenspeicherung und -analyse, sondern oft auch der menschlichen Vorstellungskraft entziehen. “The term ‘Big Data’ suggests that size is its key feature” (Lyon, 2014, S. 5). Wie zuvor beschrieben wurde, fallen in nahezu allen Lebensbereichen und insbesondere immer dort digitale Daten an, wo Technologien der digitalen Informationsverarbeitung Anwendung finden. So werden bspw. am European Bioinformatics Institute und auch dem CERN, einer europäischen Forschungseinrichtung im Bereich der Teilchenphysik, mittlerweile Petabyte4 an Daten gespeichert – das Tausendfache einer handelsüblichen Festplatte (Marx, 2013). Basierend auf einer Analyse von Suchmaschinen wird die derzeitige Größe der im indizierten Internet erreichbaren Webseiten mit 4,47 Milliarden Einträgen angegeben (van den Bosch et al., 2016; WorldWideWebSize, o. D.). Doch auch bereits vorhandene analoge Daten, die in den Jahrhunderten vor der Digitalisierung entstanden, werden zunehmend in digitale Daten überführt. Das Projekt Google Books hat seit seiner Entstehung 2004 bis zum Jahr 2015 rund mehr als 25 Millionen der weltweit geschätzt 130 Millionen verfügbaren Bücher digitalisiert (Heyman, 2015; Taycher, 2010).
Diese Zahlen stehen hier illustrativ für die große Menge an Daten, die die Menschheit fortlaufend erzeugt. Die Beschreibungsdimension Volumen – die im Folgenden auch als Ausmaß der Datenerzeugung und -speicherung umschrieben wird – ist folglich jene Eigenschaft, die wohl den meisten Menschen in den Sinn kommt, wenn es um Big Data geht. Es gibt keinen Zweifel daran, dass man es im Rahmen von Big Data mit einer Unmenge an Daten zu tun hat, auch wenn in der Literatur vereinzelt angezweifelt wird, dass nur große Datensätze Big Data sein können und es keine verbindliche Grenze gibt, ab wann ‚kleine‘ oder vermeintlich ‚normal große‘ Datensätze zu Big Data werden (Kitchin, 2014). Dass mit Blick auf eine konkrete Zahl an erhobenen Variablen oder Fällen kein Wert benannt werden kann, führt auch dazu, dass insbesondere auf die technischen Herausforderungen bei der Verarbeitung von Big Data als zentrale Konsequenz hingewiesen wird:
The term Big Data has a relative meaning and tends to denote bigger and bigger data sets over time. In computer science, it refers to data sets that are too big to be handled by regular storage and processing infrastructures. (Mahrt & Scharkow, 2013, S. 22)
Gleichzeitig bedeutet das auch, dass die Datenmengen so groß sind, dass kein Mensch sie selbst und unmittelbar verarbeiten kann, er also ohne technische Hilfsmittel nicht in der Lage ist, eine unmittelbare Bedeutung aus ihnen abzuleiten. Schon hier wird deutlich, dass lediglich ein indirekter vermittelter Zugang zu den Daten bestehen kann, aus dem sich ein Verständnis dessen speist, was man in den Daten zu erkennen glaubt. Ein Datenleck, bei dem Millionen von vertraulichen Daten in die falschen Hände geraten, wird erst dann zu einer großen Gefahr, wenn diese Daten mit Computertechnik ausgewertet werden und ihnen so eine entsprechende Bedeutung zugeschrieben wird.
Volumen als Charakteristikum von Big Data ist somit eine zentrale, jedoch eher deskriptive Dimension, die in so gut wie jeder Definition zu Big Data Erwähnung findet (Ylijoki & Porras, 2016).5 Zu den weiteren überwiegend deskriptiven Beschreibungsdimensionen zählen Velocity (Geschwindigkeit) und Variety (Vielfalt), die nachfolgend erörtert werden. Diese beiden Dimensionen werden dann von den eher konsequentiell-evaluativen Dimensionen Veracity (Richtigkeit) und Value (Nutzen) abgegrenzt.

3.4.2 Die Geschwindigkeit digitaler Datenentstehung und -verwertung

Velocity ist gemeinhin als Geschwindigkeit zu übersetzen. Sie ist als eine weitere bedeutende Eigenschaft von Big Data zu verstehen, die jedoch eng mit dem Ausmaß der digitalen Datenbestände verknüpft ist. Dabei wird im Zusammenhang mit Big Data mit Blick auf die Geschwindigkeit über unterschiedliche Phänomene gesprochen, die voneinander getrennt betrachtet und erläutert werden müssen. Aufgrund des rekursiven Charakters des Datenverwertungsprozesses, bei dem im Rahmen der Datenentstehung und -verwertung neue sogenannte Meta-Daten produziert werden, sind hier zwei Perspektiven zu unterscheiden, die jedoch eng miteinander verwoben sind. Laut Kitchin und McArdle (2016) handelt es sich hierbei mit Blick auf Geschwindigkeit von Big Data um: (1) “frequency of generation sowie (2) “frequency of handling, recording, and publishing (S. 7). Zum einen spielt also Geschwindigkeit eine entscheidende Rolle im Entstehungskontext digitaler Daten, zum anderen kommt ihr in deren Verwertungskontext, insbesondere bei der Datenauswertung eine wichtige Bedeutung zu.
Geschwindigkeit im Entstehungskontext der digitalen Daten
Wie bereits in den vorangegangenen Abschnitten angesprochen und anhand einiger Zahlen illustriert, entstehen jede Sekunde Unmengen von digitalen Daten. Zeit spielt also im Entstehungskontext der Daten eine elementare Rolle, denn zu den Unmengen an bereits vorhandenen Daten kommen laufend neue hinzu. Es kann also bei Big Data keine umfassende Betrachtung des Phänomens erfolgen, ohne sich die Zeitlichkeit als notwendige Komponente einer Definition vor Augen zu führen (Ylijoki & Porras, 2016). Allein die Nutzung von Online-Services durch Internetnutzer trägt zu einem beständig wachsenden Berg an digitalen Daten bei. Seiten wie Internet Live Stats6, die das Verhalten der Nutzer und den dabei entstehenden Internetverkehr visualisieren, veranschaulichen dies eindrucksvoll. So werden weltweit jede Sekunde abertausende Bilder und Textbeiträge auf Internetserver hochgeladen, geteilt, bewertet und kommentiert. Nicht nur das Ausmaß der digitalen Daten ist also sehr groß, sondern auch die Geschwindigkeit, mit der die vielen Daten entstehen. Laut den Internet Live Stats sind das Stand Februar 2021 rund 112 Gigabyte – jede Sekunde. Dadurch fordert das Phänomen Big Data auch gängige Datenspeicherungsmöglichkeiten heraus. So haben die meisten Unternehmen mittlerweile entsprechende Kapazitäten aufgebaut, um die bei der Verwendung ihrer Dienste anfallenden Daten zu speichern. Für das Jahr 2017 berichtet Thibodeau (2017) von weltweit 8,4 Millionen aktiven Rechenzentren, die im Englischen primär auch als Data Center bezeichnet werden und über deren Server und angeschlossene Glasfaserkabel die Datenströme des Internets laufen. Laut Koomey (2011) trugen diese Datenzentren Anfang des Jahrzehnts bereits mit über einem Prozent zum weltweiten Stromverbrauch bei, mit ansteigender Tendenz. Das bedeutet gleichzeitig, dass es – ähnlich wie in der Logik des dezentralen Internets – keine isolierte zentrale Instanz gibt, bei der die online entstehenden digitalen Daten laufend erzeugt und gespeichert werden. Datenerzeugung ist auch daher ein globales Phänomen.
Neben dieser räumlichen Dispersität der Daten sind die Datensätze, die unter Big Data verstanden werden, anders als es der Begriff andeutet, auch aus zeitlicher Sicht keine fertigen und abgeschlossenen Einheiten. Sie können sich stetig vergrößern oder aber bei versehentlichem Datenverlust oder aktiver Löschung7 verkleinern – was bei fortlaufender Analyse und der Interpretation ihrer Ergebnisse ebenfalls berücksichtigt werden muss.
Geschwindigkeit im Analysekontext der digitalen Daten
Wenn die Entstehung großer Datenmengen in Echtzeit zu verfolgen ist, dann hat das nicht nur Auswirkungen auf die Speicherung von Big Data, sondern weckt auch menschliche Begehrlichkeit, Erkenntnisse über diese Daten und aus diesen Daten in Echtzeit zu gewinnen (Kitchin, 2014; Mayer-Schönberger & Cukier, 2013). Big-Data-Analysewerkzeuge müssen daher nicht nur in der Lage sein, digitale Daten zeitlich synchron einzulesen und zu speichern, sondern auch synchron und unmittelbar Erkenntnisse bezüglich eben jener Daten zu liefern, so dass aktuelle Trends und statistische Zusammenhänge in Echtzeit verfolgt werden können (Barlow, 2013; Vera-Baquero et al., 2016). Das sind zumindest die Erwartungen, die an Big Data gerichtet sind und die der Beschreibungsdimension Geschwindigkeit für den letztendlichen Nutzungskontext besondere Bedeutung verleihen. Es reicht nicht nur zu beobachten, dass sekündlich weltweit Menschen tausende Fotos auf Facebook und Instagram hochladen. Es ist mit Blick auf das Versprechen von Big Data auch von Bedeutung, hieraus jetzt und sofort Erkenntnisse zu ziehen. Für den sozialen Kontext sollen u. a. folgende Fragen mit Hilfe von Sentiment-Analysen zur Stimmungserkennung von Personen beantwortet werden, die auf Big Data zugreifen (Bravo-Marquez et al., 2014; Liu et al., 2013; H. Wang et al., 2012): Was bewegt die Nutzer*innen bspw. gerade in ihrer Rolle als Bürger*innen? Welche Themen treiben die Öffentlichkeit um, wie sieht die öffentliche Meinung und ihre Verteilung aus? Welche Politiktreibenden fallen oder steigen gerade aus welchen Gründen in der öffentlichen Gunst? Die Möglichkeit solcher Analysen befeuern den Wunsch nach Big-Data-Kompetenzen und Auswertungskapazitäten, die in Echtzeit abgerufen werden können, da die Erwartung besteht, aus der unmittelbaren Vergangenheit und Gegenwart Erkenntnisse über Weltzustände in der Zukunft zu gewinnen (Mayer-Schönberger, 2015; Obermeyer & Emanuel, 2016).

3.4.3 Die Vielfalt digitaler Datenentstehung und -verwertung

Ein weiteres Versprechen von Big Data ist, dass man mannigfaltige Erkenntnisse für alle vorstellbaren Lebensbereiche gewinnt, solange nicht nur punktuell viel, sondern am besten auch überall und für alles Mögliche entsprechend vielfältige Daten gesammelt werden. Die Vielfalt (Variety) digitaler Datenentstehung und -verwertung rückt an späterer Stelle insbesondere im Kapitel 5 bei der fortschreitenden Quantifizierung des Sozialen in den Blick. Hier wird deutlich werden, dass mit Big Data die Hoffnung verbunden ist, für jeglichen Bereich des sozialen Miteinanders Erkenntnisse zu gewinnen, und daher in der Konsequenz überall auch Daten gesammelt werden (Mau, 2017). Der Anspruch der Digitalisierung und ihrer digitalen Daten ist mithin auch, alles messen zu können (Hubbard, 2010). Die ubiquitäre Datensammlung geschieht daher nicht nur in Form der unterschiedlichen Kommunikationsmodi wie allen voran Text sowie Bild- und Audio-Dateien, die entstehen und bspw. über die Kommunikationsarchitektur des Internets zwischen den Nutzenden ausgetauscht werden. Sondern diese unterschiedlichen Arten von Daten entstehen auch in immer neuen Kontexten. Sensoren, die von Temperatur hin zu Bewegungen etc. alles Mögliche messen, befeuern die Vielfalt der entstehenden Daten und werden nicht nur in Automotoren und Flugzeugtriebwerken verbaut, sondern auch in Uhren, mit denen Menschen jederzeit ihre Schrittzahl oder den eigenen Puls nachverfolgen können. Letzteres Beispiel nimmt Bezug auf das sogenannte Self-Tracking, bei dem laufend individuelle Körperdaten für die unterschiedlichsten Vitalparameter erhoben werden (Aktypi et al., 2017; Neff & Nafus, 2016; Sharon & Zandbergen, 2016). Mittlerweile nutzen 14 % der deutschen Bevölkerung sogenannte Digital-Health-Applikationen, also Hard- oder Software, mit deren Hilfe sie ihre Kalorienaufnahme, Sportaktivitäten und ihren Schlaf in digitalen Daten dokumentieren (Statista, 2018a). Die Liste an Beispielen zu der Vielseitigkeit von Datenerhebung und der Vielfalt der entstehenden digitalen Datenbestände ist lang und wächst täglich. Sie kann daher an dieser Stelle nur angedeutet werden, zumal sie ebenfalls lediglich eine deskriptive Dimension des Phänomens Big Data betrifft und erst dann tatsächlich relevant wird, wenn der Digitalisierungskontext eine nähere Betrachtung der spezifischen Charakteristika der Datenvielfalt notwendig macht.8
Es ist an dieser Stelle jedoch auch darauf hinzuweisen, dass die Vielfalt der Daten und die Ubiquität der Datensammlung dazu führen, dass je nach Schätzung rund 85 bis 95 % der Datensätze aus unstrukturierten Daten bestehen (Gandomi & Haider, 2015; Taylor, 2017). Strukturierte Daten sind meist in sogenannten relationalen Datenbank-Managementsystemen (RDBMS) aufbereitet und folgen in ihrem Aufbau vorher definierten Dateneingaben für bestimmte Kennwerte wie Geburtsdaten, Sozialversicherungsnummern und Geldwerten (Meier, 2010). Unstrukturierte Daten hingegen bestehen u. a. aus Text, Bildern, Audio- und Video-Dateien (Isson, 2018), reichen also von E-Mails hin zu Online-Nachrichtenartikeln, von Smartphone-Fotos hin zu Sport-Live-Streams und Videos von Überwachungskameras. Das führt nicht nur zu Herausforderungen mit Blick auf die Auswertungsmöglichkeiten, sondern häufig auch dazu, dass man zwar viele und immer neue Daten hat, abhängig vom Verwertungskontext oft jedoch erst einmal reflektieren muss, worüber diese Daten denn nun genau Auskunft geben können. Es muss daher auch die soziale Bedeutung von Big Data in ihrem soziotechnischen Kontext angesprochen werden, wobei sogleich auf zwei entsprechende Dimensionen einzugehen ist, die das Verständnis vom Sinn und Zweck der Sammlung von Big Data anleiten.

3.5 Die sozio-technischen Dimensionen von Big Data

Mauro et al. (2016) haben mit Blick auf die allgemeine Literatur zu Big Data den Versuch einer Synthese von Definitionen unternommen. Die Autoren legen ihrer Betrachtung einen ganzen Korpus an Literatur aus Industrie und Wissenschaft zu Grunde. Die finale Definition von Big Data von Mauro et al. (2016) liest sich mithin ähnlich der bereits besprochenen Beschreibungsdimensionen: “Big Data is the Information asset characterised by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value [sic]” (S. 131).
Die vorliegende Arbeit fragt insbesondere nach dem Einfluss der digitalen Datenbestände auf soziales Handeln und Gesellschaft. Charakterisierungen der digitalen Datenbestände für eine weiter gefasste Betrachtung der sozio-technischen Voraussetzungen und Konsequenzen des Umgangs mit Daten werden also dann besonders relevant, wenn es nicht mehr um die Fragen nach dem Was und Womit geht, sondern vor allem, wenn in sozialen Zusammenhängen das Wie und auch Warum der Datenerzeugung, -speicherung und -auswertung in den Vordergrund gestellt wird. Hierauf deutet die Bezugnahme von Mauro et al. (2016) auf Begriffe wie Asset und Value bereits hin. Es erfolgt hinsichtlich des Verarbeitungszusammenhangs der digitalen Datenbestände hier entsprechend eine Erweiterung der Betrachtung auf den Menschen in seiner Rolle als Datenerzeuger, -betrachter und -verwerter, so dass die sozialen Bedingungen und/oder Konsequenzen digitaler Datensammlung und -verwertung in den Fokus geraten. So stellt bspw. das einflussreiche, jedoch eher populärwissenschaftlich gehaltene Werk von Mayer-Schönberger und Cukier (2013) insbesondere auf diesen Zusammenhang ab: “Big data refers to things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value, in ways that change markets, organizations, the relationship between citizens and governments, and more” (S. 6, Hervorh. d. Verf.). Jegliche Beiträge, die den Schwerpunkt aus einer sozio-technischen Anwendersicht auf Big Data legen, gehen also meist davon aus, dass die Daten im Rahmen von Big Data über die zuvor beschriebenen Eigenschaften verfügen. Sie halten sich mithin selten mit definitorischen Grenzziehungen auf oder streifen diese nur kurz, um dann zu thematisieren, wie der menschliche Umgang mit den Daten charakterisiert werden kann; insbesondere welche epistemische Qualität und welchen Nutzen die Daten für ihn haben und welche Konsequenzen hieraus für Individuum und Gesellschaft erwachsen (Doll, 2014). Diese sozio-technischen Fragen lassen sich daher in den als konsequentiell-evaluativen Dimensionen Veracity und Value von Big Data verorten, die laut Ylijoki und Porras (2016) in 23 % bzw. 27 % aller von ihnen untersuchten Definitionen adressiert werden und nachfolgend besprochen werden. Dabei muss insbesondere auch die Charakterisierung der beiden Dimensionen als konsequentiell-evaluativ herausgearbeitet werden. Diese bezieht sich auf die Variabilität der Einschätzung der Ausprägung der zugrunde liegenden Dimensionen. Das bedeutet, dass es Big Data gibt, die diese Charakteristika und erwarteten Potentiale besitzen, dies jedoch nicht zwingend für alle großen digitalen Datenbestände der Fall sein muss.

3.5.1 Die Richtigkeit digitaler Daten

Die Richtigkeit (Veracity) digitaler Daten betrifft die epistemische Qualität der Daten, bezieht sich also auf Erkenntnis und Wissen. Man kann Veracity auch mit Wahrhaftigkeit übersetzen, da jedoch nachfolgend gesondert auf die speziellen Wesensmerkmale Wahrhaftigkeit und Objektivität eingegangen wird, ist hier zunächst der Oberbegriff der Richtigkeit vorzuziehen. Dieser zielt nicht auf eine moralische Qualität ab, sondern auf den qualitativen Wirklichkeitsbezug der Daten. Die Richtigkeit betrifft mithin sowohl (1) die Informationsqualität realitätstreuer Abbildung der Daten sowie (2) das Wissen, das in den Daten steckt bzw. aus ihnen gezogen wird (Cai & Zhu, 2015). Bevor also gesichertes Wissen auf Grundlage von Big Data entsteht, müssen weitere Voraussetzungen und notwendige Bedingungen bezüglich der Datenqualität erfüllt sein, die nachfolgend diskutiert werden. Für boyd und Crawford (2012) ist es nämlich insbesondere die zugesprochene Richtigkeit der digitalen Daten, die einen Mythos von Big Data nährt: “The widespread belief that large data sets offer a higher form of intelligence and knowledge that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy” (S. 663). Hier werden bereits die zentralen Aspekte genannt, die zur Richtigkeit der Daten zählen und nachfolgend erörtert werden. Hierzu gehören die Genauigkeit sowie die Wahrhaftigkeit und Objektivität der digitalen Daten, die einen vermeintlichen Wissensgewinn erst möglich machen.
Die Genauigkeit digitaler Daten (Accuracy)
Die Genauigkeit von digitalen Daten wird oft als eines ihrer zentralen Charakteristika hervorgehoben. Genauigkeit meint die Wiedergabequalität der Beschreibung von Zuständen durch Daten oder wie Cai und Zhu (2015) definieren: “Data representation (or value) well reflects the true state of the source information” (S. 5). Auch wenn in dieser Definition von Genauigkeit bereits der Wahrheitsbegriff enthalten ist und somit anscheinend vorweggenommen wird, ist er hier lediglich als Bedingung im Sinne einer Reliabilität der Daten zu verstehen. Wie mit Blick auf die nachfolgend besprochene Dimension der Wahrhaftigkeit und Objektivität zu diskutieren ist, können jedoch auch subjektive und unwahre Zustandsbeschreibungen reliabel in ein konsistentes Datenformat überführt werden. Deshalb ist zu ergänzen, dass die codierte Information dahingehend ambiguitätsfrei sein muss, als dass der Übersetzungsvorgang in das digitale Format störungsfrei vonstattengeht und zu vollständigen mangelfreien Daten führt. Eine einmal programmierte Maschine führt Befehle prinzipiell immer auf die gleiche Art und Weise aus und produziert somit zumindest in der Theorie Ergebnisse gleichbleibender Qualität. Dennoch können Datensätze trotz weitreichender Automatisierung ihrer Generierung zufällige sowie systematische Integritätsverletzungen beinhalten, unvollständig sein sowie Daten ganz unterschiedlicher Codierungsqualität und Güte beinhalten. Die Gründe für diese Fehlerhaftigkeit und hieraus resultierende Dirty Data (O'Leary, 2013) sind dabei mannigfaltig und können nicht nur technischen Ursprungs sein, sondern haben vor allem auch menschliche Ursachen, auf die sogleich eingegangen wird.
Die Wahrhaftigkeit und Objektivität digitaler Daten (Truth and Objectivity)
Aufbauend auf der Genauigkeit der Daten, die insbesondere auf Reliabilität und hierauf fußender Belastbarkeit des technischen Übersetzungsvorgangs als Prozess abstellt, wird der Anspruch formuliert, dass die Daten als Produkt dieses Prozesses vor allem auch objektiv und wahrhaftig sind (T. M. Porter, 1996). Ihr Anspruch ist es, Merkmale und Eigenschaften von Wirklichkeit transparent zu machen (Hansen, 2015). Dabei zielen beide Begriffe auf dasselbe ab und bauen untrennbar aufeinander auf: Digitale Daten sollen in ihrer Qualität repräsentativ für eine vermeintlich tatsächliche Realität und in ihrem wahrheitsgetreuen Wirklichkeitsabbild nicht durch äußere Einflüsse verzerrt sein. Es stellt sich mithin die Frage nach der Validität der Daten; also ob diese auch tatsächlich dasjenige repräsentieren, was sie mit Blick auf ihre Bedeutungszuschreibung repräsentieren sollen (Bandalos, 2017; Sireci, 2009).
Dabei werden entsprechende Verzerrungen auch als Bias bezeichnet und können vielfältiger Natur sein (R. M. Kaplan et al., 2014). Am Ende veranlasst und beeinflusst immer menschliche Entscheidung den Übersetzungs- und Produktionsprozess von digitalen Daten, weshalb die Daten womöglich nicht das wiedergeben, was sie wiedergeben sollen. So können Daten auf der einen Seite bereits mit einem Bias produziert werden, bspw. wenn Klassifikationen fehlerhaft sind, da Codierentscheidungen subjektiv geprägt sind (Bollen & Paxton, 1998). Richardson, Schultz und Crawford (2019) greifen diesbezüglich auch den zuvor angesprochenen Begriff Dirty Data auf, wenn sie die in den USA verbreitete Praxis des Predictive Policing (Vorhersagende Polizeiarbeit, Pollich & Bode, 2017) kritisieren. Im Rahmen dieses Beispiels wird die Problematik subjektiv verzerrter Daten deutlich, die Ansprüche an Objektivität und Wahrhaftigkeit verletzen:
These policing practices and policies shape the environment and the methodology by which data is created, which raises the risk of creating inaccurate, skewed, or systemically biased data (‘dirty data’). If predictive policing systems are informed by such data, they cannot escape the legacies of the unlawful or biased policing practices that they are built on. (Richardson, Schultz & Crawford, 2019, S. 1)
Auf der anderen Seite können Daten nicht geeignet sein, die spezifischen Fragen zu klären, für deren Beantwortung sie herangezogen werden. So sind Bevölkerungsstichproben auf Grundlage sogenannter Sozialer Online-Netzwerke biased, da sie nicht repräsentativ für die Gesamtbevölkerung sind (Hargittai, 2015).
Unabhängig davon, wie der Bias zustande gekommen ist, führen entsprechende Validitätsverletzungen und Verzerrungen der Daten dazu, dass Objektivitäts- und Wahrheitsannahmen häufig nicht haltbar sind. Objektivität und Wahrhaftigkeit sowie auch die Genauigkeit der Daten sind im Rahmen von Big Data also zunächst einmal in vielen Definitionen als Ansprüche formuliert, die jedoch wie dokumentiert nicht immer eingelöst werden bzw. einfach einzulösen sind. Es ist eben wie von boyd und Crawford (2012) angesprochen nur der Anspruch der genannten epistemischen Bedingungen, die Big Data anhaftet. Es zeigt sich allerdings, dass eine qualitative Varianz auf einem Kontinuum zwischen genau und ungenau, objektiv und nicht objektiv sowie wahr und unwahr bestehen kann. Dabei kann die Verletzung der Validität von Daten bzw. das beobachtete Ausmaß der Verzerrung nicht immer zweifelsfrei erkannt und festgestellt werden und ist mithin diskussionswürdig (Messick, 1989). Entsprechend kommt Messick (1995) auch zu dem Schluss: “Validity judgments are value judgments” (S. 748, Hervorh. im Orig.).9 Es bleibt an dieser Stelle jedoch zunächst einmal festzustellen, dass Validitätseinschätzungen bezüglich Genauigkeit, Objektivität und Wahrhaftigkeit digitaler Daten variabel sind.
Der Wissensgewinn aus digitalen Daten (Knowledge)
Unter der Voraussetzung, dass die Bedingungen der Genauigkeit sowie Wahrhaftigkeit und Objektivität digitaler Daten zu einem hohen Grad gewährleistet sind, können digitale Daten als Abbild beobachteter Tatsachen Fakten bereitstellen, die zu neuen Erkenntnissen und einem Wissensgewinn führen (Hansen, 2015). Nachfolgend beschäftigt sich Abschnitt 4.​1 daher ausführlich mit dem Wissensbegriff und der Wahrheit als zentralem Kriterium dieses Wissens. An dieser Stelle soll zunächst lediglich die Bedeutung des Wissensbegriffs im Rahmen der sozio-technischen Beschreibung von Big Data erörtert werden.
Wissen auf Grundlage von Big Data ist die elementare Voraussetzung einer weitergehenden Verwertung und Nutzung dieser. Dabei soll die Datensammlung und -auswertung nicht nur neues Wissen produzieren, sie kann natürlich auch bereits bestehendes Wissen in Form digitaler Daten speichern. Die Erwartung ist jedoch darauf ausgerichtet, dass durch die binär codierten Sequenzen von Zustandsbeschreibungen Unterscheidungen getroffen werden können, aus denen Menschen (und eben auch Maschinen) Einsichten generieren und etwas lernen können (Leonelli, 2014; Mayer-Schönberger & Cukier, 2013; Pentland, 2014). Gewonnene Erkenntnis über Zustände und Mechanismen beeinflusst in der Folge Anschlusshandlungen, bspw., wenn Wissen zu treffende Entscheidungen anleitet.
Es ist zu diskutieren, inwieweit eine Verletzung der Bedingungen der Genauigkeit und Objektivität der Daten zwingend dazu führt, dass keine oder geminderte Erkenntnis aus digitalen Daten gezogen werden kann. Ausschlaggebend hierfür sind dann jedoch primär der jeweilige Grad der Verletzung und der Kontext, in dem das Wissen konkrete Konsequenzen zeitigt. Im Vergleich mit den Ergebnissen eines Temperatursensors, der auf wenige Grad Celsius die ungefähre tatsächliche Temperatur wiedergibt, sind die Daten einer stehen gebliebenen Uhr nutzlos, selbst wenn sie zweimal am Tag richtig geht. Ist die Genauigkeit des Temperatursensors jedoch entscheidend, bspw. bei der Herstellung von temperatursensiblen Produkten, dann ist eine hohe Genauigkeit dennoch zentral. Eine finale Diskussion dieser Problematik ist also nur mit Blick auf die Erfordernisse des Verwertungszusammenhangs digitaler Daten zu entscheiden und kann hier nicht abschließend getroffen werden. Wichtig ist jedoch, dass die Genauigkeit der Daten prinzipiell technisch möglich ist bzw. sein sollte und mit Blick auf die Richtigkeit der digitalen Daten definitorisch vorausgesetzt wird. Wie deutlich geworden ist, hängen die Wahrhaftigkeit sowie die Objektivität jedoch vor allem von der zu messenden Entität ab, ihrer konstruierten mentalen Konzeptionierung auf Seiten der Messenden sowie den getroffenen Operationalisierungs- und Messentscheidungen im Rahmen der Überführung realweltlicher Phänomene in Daten.
Gerade mit Blick auf die Ubiquität digitaler Datenerzeugung und die Möglichkeiten ihrer Auswertung ist nun also diejenige Erkenntnis von Interesse, die erst aus den digitalen Daten gewonnen werden kann. Dabei ist es zunächst unerheblich, ob die Daten gezielt erzeugt werden oder ganz nebenbei anfallen.10 Während die Qualität der Daten und der hieraus gewonnenen Erkenntnisse also durchaus auf einem Kontinuum eingeordnet werden können, soll an dieser Stelle zunächst die zentrale Bedeutung der Dimension des Wissensgewinns im Rahmen der Definition großer digitaler Datenbestände hervorgehoben werden. Eine detaillierte Diskussion der Qualität und sozialen Bedeutung dieses Wissens, insbesondere auf Grundlage von Big Data, wird nachfolgend in Kapitel 4 geleistet.
Die Qualität der Daten aus epistemischer Perspektive, sprich ihre Erforderlichkeiten und Konsequenzen mit Blick auf mögliche Erkenntnis, hat eine zentrale Bedeutung im Entstehungs- und Verwertungskontext von Big Data (Frické, 2015; Kitchin, 2014). Während die zuvor thematisierten Wesensmerkmale eine vermeintliche Grundvoraussetzung für den Wissensgewinn sind, ist der Wissensgewinn wiederum die Vorbedingung für den aus den Daten gezogenen Nutzen und somit ein notwendiges Bindeglied zwischen Ausmaß der Datensammlung und -verwertung und den hiermit verbundenen positiven Konsequenzen für Individuum oder Gesellschaft. Der nun nachfolgend besprochene Nutzen digitaler Daten hängt maßgeblich von der Qualität und der Reichweite dieses generierten Wissens ab.

3.5.2 Der Nutzen digitaler Daten

Die Unmengen von digitalen Daten werden selbstverständlich nicht zum Selbstzweck erzeugt und gespeichert. Zwar fallen wie gezeigt viele Daten ganz nebenbei beim Betrieb von Computertechnik und Sensoren an. Die Entscheidung über Speicherung und Verarbeitung wird jedoch bewusst getroffen. Denn auch wenn Rechenkapazität und Speicherplatz über die Zeit immer preisgünstiger werden, verursachen Entstehung, Speicherung und Verarbeitung von Daten hohe Kosten mit Blick auf Speichermedien, Prozessoren, Serverinfrastruktur und den beim Betrieb anfallenden Stromverbrauch (Greenberg et al., 2008; Le et al., 2010). Diese Kosten werden nur in Kauf genommen, wenn ihnen gegenüber auch ein erwarteter Nutzen (Value) steht.
Die Dimension des Nutzens ist nun eng mit der Wahrhaftigkeit und dem in den Daten enthaltenen Wissen verknüpft und baut unmittelbar auf ihr auf (Lupton, 2013; Sharon & Zandbergen, 2016). Der aus den Daten gewonnene Nutzen stellt auf einen generierten Mehrwert ab, der auf Grundlage der Daten geschaffen wird (Mahrt & Scharkow, 2013). Diese Nutzenerwartung ist dabei immer mit Bezug auf das menschliche Individuum oder die Gesellschaft und somit als explizit sozio-technische Dimension zu verstehen. Die Zweckgebundenheit von Datensammlung und -verarbeitung ist dabei an vielen Stellen in den vorhergehenden Abschnitten bereits durchgeklungen, soll an dieser Stelle jedoch noch einmal differenziert betrachtet werden. Denn Nutzen kann hier durchaus in seinem doppeldeutigen Gebrauch verstanden werden.
Zum einen können Daten verwendet werden: Sie sind dann mit Blick auf ihren oft als ‚Öl des 21. Jahrhunderts‘ beschriebenen Charakter ein nicht-dinglicher Energieträger, der ‚genutzt‘ oder ‚einer Nutzung oder Verwertung zugeführt‘ werden kann; gleich eines Schmierstoffes, der datenverarbeitende Anwendungen am Laufen hält. Gleichzeitig entspringt mit Blick auf den Erkenntnisgewinn aus dieser Nutzung ein Nutzen im Sinne von Gewinn oder Profit, so wie auch Öl einen Marktpreis hat und als Produktionsmittel für mit Gewinnabsicht produzierte Güter und Dienstleistungen verwendet wird. Dieser Nutzen ist dann vor allem, jedoch nicht allein als Nutzen im Rahmen einer ökonomischen Verwertungslogik zu sehen (Chen et al., 2012; Mayer-Schönberger & Cukier, 2013).
Der Zuschnitt nur auf ökonomischen Nutzen ist hier also zu eng gefasst. Ein Nutzen kann sich ferner auch in anderen sozialen Kontexten wie Politik, Wissenschaft und Zivilgesellschaft manifestieren und ist hier vor allem mit Begriffen wie bspw. Open Data verbunden, womit kostenfreie öffentlich zugängliche Datensätze, auf die jeder frei zugreifen kann, gemeint sind und deren Nutzen vielfältigerer Natur sein kann (Mayernik, 2017; World Wide Web Foundation, 2018). Gleichwohl der konkrete Nutzen vor allem im jeweiligen Entstehungs- und Verwertungskontext betrachtet werden muss, lässt sich mit Blick auf die allgemeine gesellschaftliche Durchdringung von informationstechnischen Anwendungen der Datenverwertung insbesondere mit Blick auf deren öffentliche Thematisierung zwischen einem Nutzen unterscheiden, der sich auf einer gesellschaftlich höher-gelagerten Ebene realisiert (Weyer et al., 2018), und einem Nutzen, der sich für das Individuum ergibt (Knorre et al., 2020).
Individueller Nutzen digitaler Datensammlung und -verwertung
Aus der Sicht des Individuums in der digitalen Gesellschaft sind mit Blick auf die Bewertung des großen Ausmaßes digitaler Datensammlung und -verwertung zunächst insbesondere Konsequenzen für die eigene Person relevant, da Big Data auch seine unmittelbare Lebenswelt betrifft (Knorre et al., 2020). Geht es um eine generelle Bewertung von Big Data, haben bedingt durch die Zweckgebundenheit digitaler Datensammlung und -verwertung mithin Einschätzungen zum persönlichen Nutzen einen zentralen Einfluss: Jedes Individuum trifft hier für sich im Rahmen einer laufenden Kosten-Nutzen-Kalkulation eine Abwägung (Diekmann & Voß, 2004a; Kunz, 2004), ob und inwieweit es von Big Data profitiert. Das gilt zwar ganz allgemein für die weitreichende Datensammlung, wird jedoch vor allem in Situationen relevant, in denen eine Entscheidung getroffen werden muss, eigene persönliche Daten preiszugeben. Insbesondere hier stellt sich die Frage, warum Daten gesammelt und ausgewertet werden sollten: Was habe ich davon, wenn Online-Angebote umfassende Daten erheben und speichern und ich im Internet laufend der Aufzeichnung und Auswertung meiner Nutzungsdaten zustimmen muss? Warum sollte ich der Uhr an meinem Handgelenk erlauben, laufend meinen Puls zu messen? Entscheidend für diesbezüglich getroffene Entscheidungen ist, dass man sich etwas hiervon verspricht. Etwa, wenn man bei Online-Angeboten auf die eigenen Präferenzen abgestimmte Produktangebote und Vorschläge für Videos oder Musikstücke erhält, die einem gefallen könnten. Oder wenn man aus der Erhebung der eigenen Vitalparameter etwas über den eigenen Gesundheitszustand erfährt und man bspw. sieht, dass das Ausdauertraining auch tatsächlich zu einer Leistungssteigerung führt. Dabei knüpft der vermeintliche Nutzen auch und insbesondere an die zuvor beschriebene Leistungsfähigkeit der Daten hinsichtlich eines Erkenntnisgewinns an (Sharon & Zandbergen, 2016):
Where the question of the value of data for those who generate it is addressed, this value is typically understood as residing in the aura of neutrality and objectivity that numbers convey, and their role in a will to (quantified) truth. (S. 1696, Hervorh. im Orig.)
Der Abwägungsprozess bezüglich des Ausmaßes individuellen Nutzens speist sich dabei im Rahmen der Kosten-Nutzen-Kalkulation aus diversen Nutzenerfahrungen und -erwartungen, die sich aus den unterschiedlich gelagerten Verwertungskontexten digitaler Daten ergeben können. Dies ist etwa der Fall, wenn es Sicherheitsbedenken bei der Preisgabe persönlicher Daten im Rahmen von digitaler Mediennutzung gibt, deren Zusammenhang in der Privacy-Forschung untersucht wird (Dienlin & Metzger, 2016; Dinev & Hart, 2006).
Gesellschaftlicher Nutzen aus digitaler Datensammlung und -verwertung
Jenseits eines individuell realisierten Nutzens durch Big Data werden durchaus auch Erwartungen formuliert, die darauf abzielen, wie Big Data für die Gesellschaft von Nutzen sein können und sollen (Houben & Prietl, 2018; Kolany-Raiser et al., 2018; Mayer-Schönberger & Cukier, 2013). Big Data müssen hierbei fernab jedes Technikoptimismus oder -pessimismus zunächst einmal als ein Werkzeug betrachtet werden, das sowohl Schäden verursachen oder Nutzen bringen kann. So können Schäden, die aus einer weitreichenden Datensammlung von Gesundheitsdaten entstehen, etwa wenn diese Daten in falsche Hände geraten, den individuellen und vor allem auch gesellschaftlichen Vorteilen gegenübergestellt werden. Es ist positiv zu bewerten, sollten aus der zentralen Speicherung und Auswertung von Daten zu Krankheiten und deren Behandlung neue Therapiemöglichkeiten entstehen, von denen ich und viele andere profitieren, weil sich Gesundheit verbessert und sich Kosten vermeiden lassen.
Natürlich muss ein Nutzen, der nicht vom Individuum realisiert wird, nicht auch automatisch auf gesamtgesellschaftlicher Ebene eintreten. Zwischen der Mikro- und der Makro-Ebene gibt es unzählige weitere mögliche Profiteure mit individuellen Sonderinteressen, die sich auf der Meso-Ebene ansiedeln lassen. Die Nutzenerwartung an die großen digitalen Datenbestände kann hier wie folgt beschrieben werden:
Right now big data is enabling organizations to move away from intuitive- to data-based decision making. Ultimately, enterprises will use big data because it creates value by solving new problems, as well as solving existing problems faster or cheaper, or providing a better and richer understanding of those problems. (O'Leary, 2013, S. 99)
Zu den angesprochenen Organisationen gehören bspw. Hacker sowie Datenaktivist*innen (Cardullo, 2015; Schrock, 2016) oder gleich ganze gesellschaftliche Felder wie die Forschung (Aitken et al., 2018; Mahrt & Scharkow, 2013), der Journalismus (C. W. Anderson, 2013; Coddington, 2015; Lewis, 2015), die Wirtschaft sowie staatliche Institutionen (Andrejevic & Gates, 2014; Lyon, 2014). Doch selbst wenn diese einzelnen Gruppen und Einheiten partikulare Interessen verfolgen, so sind sie gesellschaftlichen (Teil-)Systemen zuzuordnen, die innerhalb der Gesellschaft wichtige Funktionen übernehmen und gesellschaftlichen Wandel bewirken und hier etwaigen Nutzen für die Gesellschaft erbringen oder auch nicht.11
Für eine übergeordnete gesellschaftliche Wahrnehmung von digitalen Daten kann an dieser Stelle daher mit Blick auf Nutzenerwartungen nicht kleinteilig unterschieden werden. Es mag je nach individueller Bewertung und eigenem Vorwissen und Erfahrung auf unzählige einzelne Bereiche abgestellt werden, in denen Nutzen durch Big Data gesehen wird oder eben auch nicht. Darüber hinaus sollte es jedoch zu einer allgemeinen Gesamtbewertung beim beobachtenden Individuum kommen, die auf einer Einschätzung zum Nutzen von Big Data für die Gesamtgesellschaft beruht, deren Teil man ist. In Abhängigkeit von vielen individuell zu treffenden Einschätzungen wird der generelle Nutzen von Big Data sowohl für das Selbst als auch für die Gesellschaft bewertet. Unbenommen möglicher noch feinteilig differenzierter Zwischenstufen der Nutzeneinschätzung, die jedoch theoretisch und empirisch erst einmal zu beschreiben wären. Es ist zunächst zu prüfen, inwieweit sich individuelle und gesellschaftliche Nutzenüberzeugungen analysieren lassen. Dies lässt dann immerhin auch die Möglichkeit zu, zu untersuchen, ob beide Einschätzungen zusammen- oder auseinanderfallen, was mit Blick auf die Abwägung von Schadens- und Nutzenbewertung eine relevante Frage ist.

3.6 Die Bedeutung von Big Data im Zusammenhang mit Algorithmen, Künstlicher Intelligenz und maschinellem Lernen

An dieser Stelle muss nun zudem kurz auf technische Anwendungskontexte im Zusammenhang mit den großen digitalen Datenmengen abgestellt werden, um deutlich zu machen, wie Big Data sich zu unmittelbar angrenzenden Techniken wie Algorithmen oder Anwendungen Künstlicher Intelligenz (KI) verhalten, die Datenverarbeitung und -auswertung in den vorliegenden Ausmaßen erst ermöglichen.
Algorithmen sind hier das Bindeglied zwischen der Hardware und den digitalen Daten, denn „elektronische Datenverarbeitung beruht auf Algorithmen“ (Cormen et al., 2017, S. XIII). Ein Algorithmus definiert sich nach Kraemer et al. (2011) wie folgt: “An algorithm is, roughly speaking, a finite sequence of well-defined instructions that describe in sufficiently great detail how to solve a problem” (S. 251). Die Computerhardware wird nicht zuletzt auch Rechner genannt, aufgrund der programmiersprachlichen Formulierung von Algorithmen als Entscheidungsregeln, die häufig in Gestalt von mathematischen Formeln festgelegt sind. Die digitalen Daten werden den Algorithmen als Eingabe zugeführt oder entstehen als Ausgabe algorithmischer Verarbeitung (Cormen et al., 2017). Dabei ist das besondere an den Algorithmen, dass sie wie die IuK fortlaufend eingesetzt werden können. Als einprogrammiertes System von Rechenvorschriften können Rechenprobleme nun mit Hilfe von IuK automatisiert gelöst werden. Dabei stehen die Algorithmen nicht nur in einem Verwertungszusammenhang mit digitalen Daten, auch mit ihnen verbundene Problematiken erinnern an die zuvor aufgeworfenen Schwierigkeiten menschlicher Fehlbarkeit und subjektiver Einflüsse im Rahmen ihres Einsatzes:
Zwar genießen Algorithmen oftmals den Nimbus der Objektivität, weil sie unpersönlich sind und quantitative Daten verarbeiten, doch diese kalkulativen Praktiken selbst sind keineswegs neutrale Verdatungsformen des Sozialen. Algorithmen stehen in einem unauflöslichen Zusammenhang mit sozialen Formen der Zuschreibung von Wertigkeit, und in diesem Sinne produzieren und repräsentieren sie das, was für relevant oder wertvoll gehalten werden soll. (Mau, 2017, S. 204–205)
Algorithmen werden folglich dort für das Wahrnehmungsmuster digitaler Daten relevant, wo sie die in den Daten verbundenen Problemlagen noch verschärfen oder gar dazu eingesetzt werden sollen, einmal identifizierte Probleme abzumildern oder gar zu beseitigen. Wenn in den Daten Verzerrungen oder Ungenauigkeiten vorliegen, ihr Wirklichkeitsabbild fraglich ist oder aber, wenn eine andere Gewichtung der Daten gewünscht ist, dann sollen die Rechenvorschriften der Algorithmen zur Datenverarbeitung eben angepasst werden. Ihr Verhältnis zu den digitalen Datenbeständen ist somit an dieser Stelle verdeutlicht. Es wird jedoch im vorliegenden Forschungszusammenhang zwecks begrifflicher Klarheit und der vorrangigen Fokussierung auf ganz allgemeine Datensammlung und -verwertung nicht weiter ausgeführt und explizit unter dem Label Algorithmus angesprochen. Weiterhin sind Algorithmen jedoch auch unverzichtbarer Teil des Entstehungs- und Verwertungszusammenhangs digitaler Daten, wenn es um den Fall von Anwendungen der KI geht, bei denen die Folgen von Rechenvorschriften eine elementare Rolle spielen. Auch hier soll nicht mit dem eher allgemeinen Begriff Algorithmus operiert werden, sondern auf die wesentlichen Charakteristika der KI abgestellt werden, die nachfolgend erläutert und zu Big Data in Beziehung gesetzt werden.
Künstliche Intelligenz und maschinelles Lernen
Im Rahmen der Diskussion um die Digitalisierung der Gesellschaft erfährt derzeit auch der Begriff der KI wieder eine Renaissance (Bostrom, 2016; Cath et al., 2018; Wittpahl, 2019). Ein Phänomen, das nach heutigem Stand in seinen zentralen Anwendungen wie Machine Learning (ML) vor allem auf die Verfügbarkeit der großen digitalen Datenbestände angewiesen und daher unmittelbar mit Big Data verbunden ist (Mayer-Schönberger & Cukier, 2013). Beginnend mit der Darthmouth Conference im Jahr 1956 wurde an der Entwicklung von Computersystemen gearbeitet, die intelligente Eigenschaften besitzen (Rid, 2017). Obwohl es keine allgemeingültige Begriffsbestimmung, sondern viele unterschiedliche Definitionen von ‚natürlicher‘ Intelligenz gibt, wie sie bei Mensch und Tier zu beobachten ist (Legg & Hutter, 2007), entstehen derzeit weltweit Forschungsprogramme, die besagte KI entwickeln und ihren gesellschaftlichen Einsatz vorantreiben. So stellte auch die Bundesregierung Deutschlands im Sommer 2018 Eckpunkte für eine zu entwickelnde nationale KI-Strategie vor (Bundesregierung Deutschland, 2018b), die im November 2018 verabschiedet und der Öffentlichkeit präsentiert wurde (Bundesregierung Deutschland, 2018a).
Ganz allgemein stellt KI darauf ab, dass Maschinen intelligente Fähigkeiten demonstrieren, die man sonst nur im Rahmen natürlicher Intelligenz bei Menschen beobachtet und die sich u. a. in mathematischem, sprachlichem oder räumlichem Denken, Merkfähigkeit, Wahrnehmung, Auffassungsgabe und Verarbeitungsgeschwindigkeit äußern (Bostrom, 2016; Finlay, 2017; J. Kaplan, 2016). Dabei ist der Begriff KI dahingehend zunächst einmal irreführend, da er falsche Vorstellungen davon vermittelt, welche konkreten Anwendungen sich unter dem allgemein gehaltenen Label derzeit versammeln. Häufig geht es bei KI um Computerprogramme des maschinellen Lernens, die mit Hilfe von Algorithmen Muster in den großen digitalen Datenbeständen erkennen sowie Objekte und Personen identifizieren und zuordnen (Alpaydin, 2016).
Nicht nur, dass viele KI-Systeme und insbesondere ML-Anwendungen auf Big Data angewiesen sind, um zu lernen, die Mustererkennung und Vorhersagen zu verbessern. KI kann potentiell auch dafür eingesetzt werden, die anfallenden Datenbestände zu be- und verarbeiten. So führt O'Leary (2013) aus, dass KI mit Blick auf die Entstehungsgeschwindigkeit der digitalen Daten schnellere und umfassendere Entscheidungen treffen kann als der Mensch, und führt als Beispiel den Einsatz von High-Frequency-Tradingsystemen an der Börse an. Hier werden unzählige laufend eingehende Informationen in Sekundenbruchteilen von Computerprogrammen gesichtet und bewertet, um Kauf- oder Verkaufsentscheidungen zu treffen. Laut Glantz und Kissell (2014, S. 258) entfällt mittlerweile der Großteil der börslichen Handelsaktivität (85 % im Jahr 2012) auf die unter dem Stichwort Algorithmic Trading zusammengefassten Computersysteme, von denen etliche KI-basiert sind (Martinsky, 2010; Slade, 2018).12
Insbesondere aufgrund der angeführten Unstrukturiertheit vieler großer Datenbestände verbinden sich mit KI Hoffnungen auf einen vereinfachten Umgang mit den angesprochenen Herausforderungen bei der Verarbeitung und Auswertung von Big Data. Da maschinelles Lernen in der Lage ist, große Datenmengen verhältnismäßig schnell und zuverlässig zu verarbeiten und hierin Muster zu erkennen, erlauben diese Programme einen vermeintlich einfacheren Zugang zu großen unstrukturierten Datensätzen (O'Leary, 2013).
Die Mustererkennung ist hier vor allem im Zusammenhang mit dem nachfolgend zu besprechenden Wissen zu bewerten. Erst durch Big-Data-Analytics ergibt sich ein Erkenntnisgewinn aus den zunächst einmal unzugänglichen und somit wertlosen Daten (Barlow, 2013). Denn ohne diese maschinelle Hilfe könnte kein Mensch die großen digitalen Datenbestände bearbeiten und ein Verständnis hieraus gewinnen, weshalb sich insbesondere Fragen nach dem vermeintlichen Erkenntnisgewinn und einem hieraus gezogenen Nutzen der Analyse von Big Data durch KI ergeben.
Aus den beispielhaften Ausführungen wird deutlich, dass öffentliche Erwartungen bestehen, in deren Rahmen sich Big Data und Musterkennung gegenseitig befruchten und gemeinsam gewinnbringend genutzt werden können. So ist es für Katz (2017) nicht überraschend, dass das erneute Aufblühen der an KI gerichteten Erwartungen eng mit dem Aufkommen von Big Data im Rahmen einer ökonomischen Verwertungslogik verbunden ist und von den Unternehmen aktiv befördert wird:
Corporations have helped manufacture an ‘AI revolution’ in which AI stands for a confused mix of terms—such as ‘big data,’ ‘machine learning,’ or ‘deep learning’—whose common denominator is the use of expensive computing power to analyze massive centralized data. (S. 2)
Eine Befragung von Kersting und Meyer (2018) unter KI-Forschern aus Wissenschaft und Industrie kommt zwar zu dem Ergebnis, dass KI und Big Data miteinander in Bezug stehen, dass sie jedoch zumindest von Expertenseite auf keinen Falls als deckungsgleich oder miteinander konvergierend erachtet werden. Ihre Verbindung wird jedoch auch hier dadurch deutlich, dass die KI und hier genauer die angesprochenen ML-Anwendungen als eine Zugangsmöglichkeit zu den Daten, vor dem Hintergrund der technischen Herausforderungen ihres Entstehungs-, insbesondere jedoch ihres Verwertungskontextes, gesehen werden. KI ist weithin auch als eine „Methode der Erkenntnisgewinnung“ (Mohabbat Kar & Parycek, 2018, S. 9) zu betrachten, die auf digitale Daten zurückgreift, Muster in ihnen erkennt und so das aus ihnen destillierbare Wissen zugänglich macht. Folglich werden unlängst immer mehr Innovationen aus dem Feld der KI für die Verwendung in den unterschiedlichsten Gesellschaftsbereichen angedacht oder bereits eingeführt. Daher stellt auch der letztendliche Forschungszusammenhang zu einem Glauben an Big Data nachfolgend vor allem auf den Einsatz von datenverarbeitenden KI-Anwendungen ab (siehe Kapitel 7). Insbesondere mit Blick auf die zuvor angesprochenen Verheißungen von Erkenntnis- und Nutzengewinnen erfährt Big Data in Verbindung mit KI-Anwendungen derzeit also eine hohe gesellschaftliche Aufmerksamkeit. Wichtig ist hier also der Bezug zwischen digitalen Daten und Wissen sowie dessen Bedeutung im Zusammenhang mit der gesellschaftlichen Ordnung und Verwertung von Wissen, der nun nachfolgend genauer herausgearbeitet wird.
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Fußnoten
1
Dabei sind die Bedeutung und insbesondere das Verhältnis der drei nachfolgend behandelten Konstrukte der Daten, der Informationen und des Wissens sehr vielfältig gelagert und je nach eingenommener Perspektive nicht trennscharf zu unterscheiden. Daher wird an den entsprechenden Stellen auf weiterführende Literatur zur ideengeschichtlichen Auseinandersetzung mit den jeweiligen Begrifflichkeiten verwiesen. Bezüglich der vorliegenden Ausführungen kann es daher jedoch immer nur um ein Arbeitsverständnis der Definitionen gehen, das primär auf die wesentlichen Charakteristika von Informationen, Daten und Wissen vor dem Hintergrund ihrer Bedeutung für den vorliegenden Forschungszusammenhang abstellt.
 
2
Schon an diesem Beispiel wird deutlich, dass nicht automatisch von Daten auf Information und Wissen geschlossen werden kann. Daten, in ihrem Wesen bis hier nun lediglich verstanden als Symbole, können Informationen für Mensch und/oder Maschine sein, müssen dies jedoch selbstredend nicht zwingend für jeden Menschen und jede Maschine sein und sie führen somit nicht auch automatisch zu Wissen.
 
3
Für eine bessere Verständlichkeit der folgenden Ausführungen werden die jeweiligen V-Dimensionen übersetzt und es werden im weiteren Verlauf der Arbeit die deutschen Begriffsverwendungen verwendet.
 
4
Ein Petabyte sind 1015 Bytes oder auch eine Million Gigabyte.
 
5
So finden sich in über 95 % der Definitionen von Big Data eben jene Bezüge auf das quantitative Ausmaß der Daten (Ylijoki & Porras, 2016).
 
7
Siehe hierzu bspw. die Diskussion um Datenlöschung im Rahmen des Rechts auf Vergessenwerden (Jandt et al., 2013; Koops, 2011; Rosen, 2012; Roßnagel, 2016).
 
8
Auch hier sei bei weitergehendem Interesse auf die folgenden Überblickswerke zu Big Data von Mayer-Schönberger und Cukier (2013), O'Neil (2017), Rudder (2014), Stephens-Davidowitz (2017) und Knorre et al. (2020) verwiesen.
 
9
Value meint hier nicht Wert im Sinne eines Nutzens, der in Zusammenhang mit digitalen Daten nachfolgend besprochen wird, sondern stellt auf subjektive Sichtweisen und Präferenzen sozialer Werte und Normen ab.
 
10
Wobei selbstredend auch eine beiläufige Datenspeicherung bewusst geschieht und die Erzeugung aktiv veranlasst werden muss. Gemeint ist hier vor allem, dass bei der Erzeugung und Speicherung noch nicht auf eine bestimmte Auswertung, die eine spezielle Frage beantworten soll, abgestellt wurde.
 
11
So fragt auch die Europäische Kommission (2017b) bei ihren Bürger*innen explizit nach den wahrgenommenen Auswirkungen der Digitalisierung auf das Selbst, die Gesellschaft sowie die Wirtschaft.
 
12
Auch sei hier analog zu den Fallstricken mit Blick auf die Richtigkeitsdimension der Big Data auf die Fehleranfälligkeit dieser vermeintlich intelligenten Systeme verwiesen. So kam es am 6. Mai 2010 zu einem sogenannten Flash Crash, bei denen Aufträge der Programme kurzzeitige Börsenturbulenzen ausgelöst haben (Kirilenko et al., 2017).
 
Metadaten
Titel
Digitale Daten und Big Data
verfasst von
Marco Lünich
Copyright-Jahr
2022
DOI
https://doi.org/10.1007/978-3-658-36368-0_3

Premium Partner