Skip to main content

2023 | Buch

Angewandte Data Science

Projekte | Methoden | Prozesse

insite
SUCHEN

Über dieses Buch

Die Anwendungen der Disziplin Data Science erweitern und wandeln sich stetig. In diesem Buch geben Insider aus Praxis, Wissenschaft und Lehre detailliert die Ergebnisse ihrer Data-Science-Projekte, Methodenwissen sowie Knowhow zu Vorgehensweisen und Prozessmodellen an den Leser weiter. Dabei wird ein weit gespannter Querschnitt an konkreten Anwendungen beschrieben, erklärt und illustriert: von der Nutzung generativer KI-Systeme über quantitative Textanalyse, Predictive Policing, Erklärbarkeit von Machine-Learning-Modellen, experimentelle Datenanalyse in der Spektroskopie bis hin zu Datenvisualisierung, Strukturgleichungsmodellen und Varianzanalyse.
Das Buch richtet sich an jeden, der sowohl am konkreten Einsatz von Datenwissenschaft, Statistik, Maschinellem Lernen und Künstlicher Intelligenz als auch am zugehörigen theoretischen Hintergrund interessiert ist. Praktikern, Studierenden und Lehrenden dürfte es von besonderem Nutzen sein: eine Vielzahl an Abbildungen, Diagrammen und Illustrationen ergänzen die reichhaltigen Textinformationen; Links zu Webseiten und Webapplikationen verweisen auf online verfügbare weitere Informationsquellen und Data-Science-Werkzeuge.

Inhaltsverzeichnis

Frontmatter

Projekte

Frontmatter
Kapitel 1. Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds
Herausforderungen und Entwicklungen
Zusammenfassung
Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
Sascha Wolfer, Jan Oliver Rüdiger
Kapitel 2. Möglichkeiten und Grenzen polizeilicher Prognoseinstrumente am Beispiel des Projektes SKALA
Predictive Policing in Nordrhein-Westfalen (NRW)
Zusammenfassung
Predictive Policing wird inzwischen weltweit bei Polizeien zur Prognose von Kriminalitätsbrennpunkten eingesetzt. Die Variationen in der methodischen Ausgestaltung sind in dem Zusammenhang groß. In Deutschland werden ebenfalls unterschiedliche Ansätze in einzelnen Bundesländern verfolgt. Der folgende Beitrag basiert auf einem Vortrag anlässlich des 20. Treffens der „Data Science Darmstadt“ (09.11.2020) und dokumentiert am Beispiel des Projektes SKALA aus NRW die Möglichkeiten und Grenzen polizeilicher Prognoseinstrumente. In diesem Kontext wird die Bedeutung von Predictive Policing als Strategie zur Bekämpfung des Wohnungseinbruchdiebstahls aufgezeigt, und die damit verbundene Nutzung kriminologischer Erkenntnisse zur Akquise von Daten und deren Verarbeitung erläutert. Anschließend erfolgt ein Überblick über vorhandene Grenzen, insbesondere im Hinblick auf methodische Herausforderungen in der polizeilichen Umsetzung. Der Beitrag schließt mit einem kritischen Ausblick auf mögliche Smartphone-Apps sowie die etwaige Nutzung von personenbezogenen Daten in zukünftigen Modell- und Prognoseerstellungen.
Felix Bode, Florian Stoffel
Kapitel 3. Am Anfang war der Prompt. Die Wege zur Kreativität der Maschine
Zusammenfassung
Über die Kreativität der künstlichen Intelligenz ist schon viel geschrieben worden. Doch erst in den letzten Jahren, mit der Entwicklung visueller Modelle der künstlichen Intelligenz, ist es möglich geworden, sich mit der „Vorstellungskraft“ der Computer auseinanderzusetzen. Der Autor untersucht das multimodale neuronale Netzwerk DALL-E von OpenAI und zeigt anhand von Beispielen und Prompt-Design-Strategien, wie weit man das Kreative einer KI entlocken kann.
Vladimir Alexeev

Methoden

Frontmatter
Kapitel 4. Erklärbarkeit als Schlüssel für den verantwortungsvollen Umgang mit KI
Einordnungen und Erfahrungen aus der Kreditwirtschaft
Zusammenfassung
Explainable AI (XAI) hat sich in den letzten Jahren zu einem für Akademiker und Praktiker hochrelevanten Forschungsfeld entwickelt. Ausgangspunkt ist dabei stets die Frage, wie sich der vermeintliche Konflikt zwischen der Leistungsfähigkeit (Performance) und Erklärbarkeit eines Machine-Learning-Modells auflösen lässt. Ziel des Beitrags ist es, einen Einblick in den aktuellen Stand der Forschung zu geben und dabei sowohl auf methodische, konzeptionelle und regulatorische Fragestellungen einzugehen. Die Kreditwirtschaft wird dabei immer wieder als Beispiel herangezogen; sie ist mit ihren klaren regulatorischen Anforderungen eine geeignete Blaupause für den verantwortungsvollen Einsatz von künstlicher Intelligenz.
Christophe Krech
Kapitel 5. Varianzanalyse versus Strukturgleichungsmodell – ein Vergleich aus der Praxis
Zusammenfassung
In diesem Kapitel werden zwei Standardverfahren der angewandten Statistik gegenübergestellt, bei denen man durchaus davon sprechen könnte, dass sie als Konkurrenten aufgefasst werden könnten. Die zwei methodischen Ansätze sind die Varianzanalysen (oft als ANOVA abgekürzt) und lineare Strukturgleichungsmodelle, engl. Structural Equation Modeling (SEM). Die Analyse der Verfahren zeigt allerdings sehr deutlich, dass sie zu unterschiedlichen Zwecken eingesetzt werden sollten, denn die jeweiligen Stärken und Schwächen überschneiden sich kaum. Die ANOVA liefert die passenden Werkzeuge für die präzise Überprüfung von Hypothesen und stellt hierfür passende Werkzeuge und Indikatoren bereit. Die Komplexität der zu prüfenden Modelle und Hypothesen ist allerdings begrenzt. Das Verfahren stellt hohe Ansprüche an das Verständnis von Methoden des experimentellen Designs. SEM-Verfahren eignen sich besonders zur Darstellung und Exploration komplexer Zusammenhänge. Sie stellen weniger strenge Anforderungen an die Daten und ihre Ergebnisse sind deutlich weniger eindeutig und determiniert. Andererseits können wesentlich komplexere Modelle dargestellt und evaluiert werden. Die Stärken dieser Verfahren liegen besonders im Umfeld komplexer multivariater Erhebungen.
Thomas Wirth, Hans-Werner Klein
Kapitel 6. Was ist schon normal in diesen Zeiten? Analyse von Zeitverteilungen in Usability Tests
Zusammenfassung
Dieser Beitrag beschreibt die Verwendung von sog. Probability Plots zur Visualisierung und Analyse von Zeitverteilungen am Beispiel von Aufgaben-Bearbeitungszeiten in Usability Tests. Probability Plots sind Streudiagramme, bei denen die Achsen so skaliert sind, dass unter bestimmten Verteilungsannahmen die Datenpunkte auf einer Geraden liegen. Abweichungen der Datenpunkte von der Geraden deuten auf Ausreißer oder Verletzung der Verteilungsannahmen hin, die sich wiederum inhaltlich interpretieren lassen: In der Regel ist das Aufdecken unerwarteter Einflüsse ja gerade Gegenstand des Tests. Zur Analyse der Verteilungen wird die aus der Survival-Analyse bekannte Kaplan-Meier-Schätzmethode herangezogen und ihre Anwendung bei Usability Tests beschrieben.
Bernard Rummel
Kapitel 7. Sankey-Diagramm reloaded. Innovative Anwendungsszenarien für einen Chartklassiker
Zusammenfassung
Heutige komplexe multidimensionale Datensätze der Business Intelligence erfordern neue Visualisierungsformen. Überraschenderweise kann das aber auch ein aus dem 19. Jahrhundert stammender Charttyp leisten wie das Sankey-Diagramm. Vorausgesetzt, es ist ausgestattet mit Eigenschaften wie Verständlichkeit, Interaktivität und Filterbarkeit. Im Artikel werden die tradierten und neuen Ausprägungen des Sankey-Diagramms ausführlich und nachvollziehbar erklärt und analysiert. Dabei werden auch Varianten dieser Visualisierungsform untersucht und Abgrenzungen zum Alluvial Diagramm identifiziert. Das Potenzial dieser Visualisierungsform für explorative und erklärende Datenanalyse komplexer Datensätze wird dargelegt und veranschaulicht. Im Beitrag enthaltene Links verweisen auf interaktive Websites und Webapplikationen, bei denen der Leser mit Sankeys interagieren kann. Anforderungen an visuelle und interaktive Gestaltung von interaktiven Sankey-Diagrammen werden abgeleitet, die bei der Konzeption solcher Visualisierungen und der Auswahl entsprechender Frameworks für die Aussagefähigkeit, die Nutzbarkeit und der Anwenderakzeptanz der Sankeys in der Datenanalyse im Allgemeinen sowie bei Business Intelligence im Besonderen wichtig sind.
Lothar B. Blum

Prozesse

Frontmatter
Kapitel 8. Jenseits der Algorithmen
Einsichten aus der Datenanalyse in der experimentellen Wissenschaft
Zusammenfassung
Data Science folgt einem traditionellen Analysemodell zur iterativen Verbesserung der Analyse eines Datensatzes. In diesem Artikel werfen wir ein Blick darauf, wie die „Sciences“ mit Data umgehen – der wissenschaftlichen Datenanalyse – und finden Herangehensweisen, die auch auf Data-Science-Projekte zutreffen können und die den Horizont in der Entwicklung von Data-Science-Modellen deutlich erweitern könnten. Insbesondere schlagen wir parallel zur experimentellen chemischen Analytik vor, die Daten nicht als gegeben, sondern als Resultat eines Experimentes anzusehen. Wir schlussfolgern, dass neue Daten mit neuen Experimenten erzeugt werden können; aber auch, dass es gute und schlechte Experimente sowie gute und schlechte Daten gibt. Diese Sichtweise erweitert den Horizont des Data Scientist weg von einem engen Fokus auf die Auswertealgorithmen hin zu einer Sichtweise, die das Data-Science-Projekt als System begreift und die Datenaufnahme als ein Experiment. Die Verbesserung dieses Experimentes und die Entfernung von externen Einflüssen aus den Daten sind dann die größten Hebel, durch deren Einsatz man die besten Resultate erzielen kann.
Dieter Bingemann
Kapitel 9. A Scalable Architecture for Smart Genomic Data Analysis in Medical Laboratories
Abstract
Genomic data is an important building block for the era of personalized medicine. However, processing this data efficiently in diagnostic laboratories faces several challenges in distinct areas such as big data, artificial intelligence, regulatory environment, medical/diagnostic standards (evolving guidelines), and software requirements engineering.
Analysis of the state of the art in these areas shows promising approaches and suitable reference models but no direct solutions. Existing technical solutions for genomic data analysis tend to be specialized for research projects and do not take into account the requirements for routine medical diagnostics including the regulatory constraints in this area.
This chapter introduces a technical architecture for the GenDAI (Genomic applications for laboratory Diagnostics supported by Artificial Intelligence) project that aims to create a platform for genomic data analysis that is specifically tailored to the needs and requirements of laboratory diagnostics. This includes the automation of processes using data analysis pipelines and artificial intelligence.
Thomas Krause, Elena Jolkver, Michael Kramer, Paul McKevitt, Matthias L. Hemmje
Kapitel 10. Die sieben V der Daten – Anforderungen an die Daten in der KI-Entwicklung
Zusammenfassung
Daten sind die Grundlage zur Entscheidungsfindung aller Prozesse in der analogen und insbesondere in der digitalen Welt. Insofern müssen Daten wesentliche Eigenschaften erfüllen, um als Entscheidungsbasis für KI-Systeme zu dienen. Die „sieben V“ der Datenattribute beschreiben die Anforderungen an die Daten in KI-Prozessen vom Training bis zur Umsetzung im durch KI unterstützten automatisierten Prozess.
Ulrich Walter
Kapitel 11. Scope Creep, GUI, Skalierung. Über unbekannte Wesen und ihr plötzliches Auftauchen in Machine-Learning-Projekten
Zusammenfassung
In einer fiktiven, aber realitätsnahen Geschichte wird erzählt, wie ein unerfahrenes Gründerteam für einen Konzernkunden eine Machine-Learning-Applikation entwickelt sowie über die Probleme, welchen es dabei begegnet. Es werden praktische Herausforderungen angesprochen und Empfehlungen sowie bewährte Lösungen vorgeschlagen. Einige berührte Themen sind (Projekt-)Organisation, Scope eines Projektes, Umgang mit dem Kunden, Outsourcing von Aufgaben, Einsatz von modernen Managementtechniken wie z. B. „agile“ Methoden und MLOps.
Eduard H. van Kleef
Metadaten
Titel
Angewandte Data Science
herausgegeben von
Lothar B. Blum
Copyright-Jahr
2023
Electronic ISBN
978-3-658-39625-1
Print ISBN
978-3-658-39624-4
DOI
https://doi.org/10.1007/978-3-658-39625-1

Premium Partner