Skip to main content

2025 | Buch

Data Lakes

Grundlagen, Architektur, Instrumente und Einsatzmöglichkeiten

verfasst von: Uwe Schmitz

Verlag: Springer Berlin Heidelberg

insite
SUCHEN

Über dieses Buch

Das Buch bietet einen kompakten Überblick über Data Lakes und ihre vielfältigen Einsatzmöglichkeiten. Zielgruppe sind Studierende im Bachelor- und Masterstudium, IT-Mitarbeiter*innen und -Verantwortliche, Entscheider*innen und Führungskräfte, die sich einen Überblick über das Themenfeld Data Lakes verschaffen wollen. Das Buch vermittelt grundlegende Prinzipien für den Aufbau und die Gestaltung sinnvoller Data-Lake-Architekturen. Darüber hinaus werden Technologien und Komponenten vorgestellt, die typischerweise im Kontext eines Data Lakes zum Einsatz kommen. Das Buch zeigt Herausforderungen und Vorteile beim Einsatz von Data Lakes sowie die notwendigen technologischen und organisatorischen Voraussetzungen für die Implementierung und den Betrieb eines Data Lakes in Unternehmen auf.

Die Produktfamilie WissensExpress bietet Ihnen Lehr- und Lernbücher in kompakter Form. Die Bücher liefern schnell und verständlich fundiertes Wissen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Einleitung
Zusammenfassung
Die Welt, in der wir leben und arbeiten, wird zunehmend von datengestützten Erkenntnissen und Entscheidungsprozessen geprägt. In einer zunehmend digitalen Welt ist die Verarbeitung und Analyse von Daten aller Art für Unternehmen aller Art von entscheidender Bedeutung. Für viele wissenschaftliche Disziplinen wie Data Science und IT-Instrumente wie maschinelles Lernen und künstliche Intelligenz sind umfangreiche Datenbestände eine zwingende Voraussetzung. Dieses Kapitel befasst sich mit der Bedeutung von Big Data und der Notwendigkeit effizienter Datenmanagementsysteme. Ein zentrales Element ist der Data Lake, der als Speicher für große Mengen von Rohdaten in ihrem natürlichen Format dient. Im Gegensatz zu einem Data Warehouse, in dem die Daten strukturiert vorliegen, dienen Data Lakes der Speicherung vielfältiger Daten aus unterschiedlichen Quellen. Sie ermöglichen unterschiedliche Analysen zur Gewinnung von Erkenntnissen. Data Lakes bilden die Grundlage für moderne Datenarchitekturen wie „Modern Data Warehouse“, „Data Fabrics“ und „Data Lakehouses“. „Data Meshes stellen einen dezentralen Ansatz dar, während Data Fabrics und Data Meshes sich ergänzen können. Data Lakes sind flexibel, erfordern aber oft zusätzliche Analysetechnologien.
Uwe Schmitz
Kapitel 2. Grundlagen
Zusammenfassung
Der Data Lake speichert eine große Menge an Daten in ihrem Rohformat, d. h. unverarbeitet, aus unterschiedlichen Quellen, um sie u. a. für sogenannte Big-Data-Analysen nutzbar zu machen. Diese Daten können strukturiert, semistrukturiert oder unstrukturiert sein. In diesem Kapitel wird der Begriff Big Data im Kontext der Digitalisierung und des Internets der Dinge definiert, wobei eine genaue Definition noch aussteht. Die wesentlichen Merkmale von Big Data werden anhand der sogenannten „5 V“ veranschaulicht: Volume (Datenvolumen), Velocity (Geschwindigkeit), Variety (Vielfalt), Veracity (Richtigkeit) und Value (Wert). Big Data umfasst strukturierte, halbstrukturierte und unstrukturierte Daten aus verschiedenen Quellen wie Menschen, Maschinen und der Natur. Die Vielfalt der Daten erfordert die Berücksichtigung von Datenqualität und Korrektheit, während der geschäftliche Mehrwert der Daten im Verhältnis zu den Investitionskosten steht. Das Beispiel von Netflix zeigt, wie Big Data in der Praxis eingesetzt wird, indem riesige Datenmengen verarbeitet werden, um personalisierte Empfehlungen zu geben und Entscheidungen über neue Inhalte zu treffen.
Uwe Schmitz
Kapitel 3. Konzeption und Architektur
Zusammenfassung
Moderne Datenmanagementarchitekturen, die auf Data Lakes basieren, speichern Daten aus verschiedenen Datenquellen in ihrer ursprünglichen Rohform. Anschließend werden die Daten aufbereitet, angereichert und in Formate konvertiert, die von verschiedenen Anwendungen genutzt werden können. Dieser mehrstufige Prozess wird durch die Aufteilung der Datenpersistenz in verschiedene Zonen erreicht. Dieses Kapitel befasst sich mit der Konzeption und der Architektur von Data Lakes, wobei ein besonderer Schwerpunkt auf dem Zonenmodell liegt, das die Datenpersistenz in verschiedene Zonen unterteilt. Typische Zonen wie die Raw Data Zone, die Landing Zone, die Staging Zone und die Analytics Zone, die jeweils unterschiedliche Funktionen und Benutzer haben, werden beschrieben. Zusätzlich werden optionale Zonen wie die Data Governance Zone und die Sandbox Zone erläutert. Das Kapitel stellt auch Reifegradmodelle wie Data Swamps, Data Puddles, Data Lakes und Data Oceans vor und diskutiert, warum es in der Praxis mehrere Data Lakes geben kann. Des Weiteren werden Architekturelemente wie Data Warehouse und Data Lakehouse, Datenflüsse (ETL und ELT), Data Governance und Metadatenmanagement behandelt. Schließlich werden technische Umsetzungsmöglichkeiten wie Hadoop, Objektspeicher, Cloud-Lösungen, NoSQL-Datenbanken, In-Memory-Datenbanken sowie Data Lakehouse-Technologien (Delta Lake, Apache Iceberg, Apache Hudi) vorgestellt.
Uwe Schmitz
Kapitel 4. Datengetriebene Geschäftsmodelle
Zusammenfassung
Eine große Herausforderung für Unternehmen beim Einsatz von Data Lakes und den damit verbundenen Technologien ist die Integration der Prozesse und Technologien zur Erfassung und Auswertung der Datenmengen in die bestehenden Geschäftsprozesse. Im Vordergrund stehen dabei die Integration unterschiedlich strukturierter Daten, die Verwaltung dieser Daten sowie die Möglichkeit der schnellen Anpassung und Flexibilität. Insofern unterscheiden sich diese Systeme von transaktionalen Systemen, wie z. B. ERP-Systemen zur Durchführung und Überwachung von Geschäftsprozessen. Dieses Kapitel befasst sich mit datengetriebenen Geschäftsmodellen, die durch die Nutzung von Daten aus Data Lakes entstehen können. Es werden verschiedene Strategietypen wie Optimization, Monetization, Leverage und Disrupt unterschieden, die jeweils einen anderen Ansatz zur Wertschöpfung aus Daten verfolgen. Zusätzlich werden Geschäftsmodelle wie Analytics-as-a-Service (AaaS), Data-as-a-Service (DaaS), Data-infused Products sowie Datenmarktplätze und Datenaggregatoren erläutert, die als Geschäftsmodelle in der Datenwirtschaft etabliert sind. Diese Modelle ermöglichen Unternehmen, durch den Einsatz von Daten innovative Produkte und Dienstleistungen zu entwickeln und sich Wettbewerbsvorteile zu sichern. Die Integration von Daten in bestehende Prozesse und die Nutzung neuer Datenquellen sind zentrale Aspekte datengetriebener Geschäftsmodelle.
Uwe Schmitz
Kapitel 5. Exemplarische Einsatzmöglichkeiten
Zusammenfassung
Die Einsatzmöglichkeiten von Data Lakes sind vielfältig und betreffen alle Branchen und alle Funktionsbereiche von Unternehmen. Der Einsatz von Data Lakes wird zunächst exemplarisch für den Handel aufgezeigt. Anschließend wird ein Einsatz im Bereich Social Media Marketing betrachtet und anhand konkreter Unternehmensbeispiele aus dem Bankensektor, der Forschung und Entwicklung, der Logistik, dem Finanzrisikocontrolling und bei einem Energieversorger dargestellt. Dieses Kapitel behandelt die vielfältigen Einsatzmöglichkeiten von Data Lakes in verschiedenen Branchen und Unternehmensfunktionen. Es wird am Beispiel eines Einzelhandelsunternehmens aufgezeigt, wie ein Data Lake zur Analyse von Kundenverhalten und zur Optimierung von Lagerbeständen genutzt werden kann. Im Bereich Social Media Marketing werden proaktive und reaktive Ansätze zur Kundengewinnung und -bindung durch Data Lakes unterstützt. Konkrete Unternehmensbeispiele wie die Postbank, Telefónica, UPS, und andere zeigen, wie Data Lakes zur Erfüllung von Datenschutzvorgaben, zur Optimierung von Logistik, zur Risikoberechnung, zur Standortplanung, im Datenmanagement und zur Wartung von Anlagen eingesetzt werden. Schließlich wird die technische Umsetzung eines Data Lakes in Microsoft Azure erläutert, inklusive der Nutzung von Speicherkonten, Containern und der Azure Data Factory.
Uwe Schmitz
Kapitel 6. Organisatorische Rahmenbedingungen
Zusammenfassung
Eine große Herausforderung bei der Implementierung von Data Lakes liegt darin, notwendiges Know-how im Unternehmen und entsprechende Kompetenzen verfügbar zu haben, da eine Vielzahl von unterschiedlichen Arten von Datendateien, die für einen Data Lake relevant sind, zu verwalten ist. Ebenso sind Kompetenzen notwendig, um verschiedene Abfrage-Tools einsetzen zu können, damit bspw. eine Tabelle aus Rohdateien erstellt werden kann, die abfragefähige Datensätze enthält. Dieses Kapitel befasst sich mit den organisatorischen Rahmenbedingungen für den Einsatz von Data Lakes, insbesondere mit den erforderlichen Kompetenzen und Rollen im Unternehmen. Die Aufgaben und Verantwortlichkeiten von Data Engineers, Data Scientists und Data Analysts werden detailliert beschrieben. Data Engineers sind für die Sammlung, Speicherung und Bereitstellung von Daten verantwortlich und übernehmen auch Aufgaben der Datenqualitätskontrolle und des Datenlebenszyklusmanagements. Data Scientists experimentieren mit Daten, entwickeln Modelle und arbeiten eng mit anderen Abteilungen zusammen. Data Analysts sind näher am operativen Geschäft und identifizieren Handlungsoptionen, die sie an Entscheidungsträger weitergeben. Die Zusammenarbeit dieser drei Rollen ist entscheidend, um den Wert von Daten zu erschließen und ihre Nutzung im Unternehmen zu erleichtern.
Uwe Schmitz
Kapitel 7. Bewertung
Zusammenfassung
Zusammengefasst bietet ein Data Lake, insbesondere in Verbindung mit einem Data Warehouse, folgende Vor- und Nachteile: Dieses Kapitel erörtert die Vor- und Nachteile von Data Lakes, insbesondere im Vergleich zu einem Data Warehouse. Zu den Vorteilen gehören die Speicherung verschiedener Datentypen, Kosteneinsparungen, schnelle Datenspeicherung und -zugriffe sowie die Möglichkeit, Algorithmen für maschinelles Lernen zu trainieren. Zudem ermöglichen Data Lakes flexible Rechenoperationen, unbegrenzten Speicherplatz in der Cloud, die Wiederherstellung von Daten und die Erstellung von Online-Archiven. Auf der Nachteilseite stehen Herausforderungen bei der Qualitätskontrolle, das Risiko eines „Data Swamps“, die Komplexität für nicht-Spezialisten, hohe Kosten, schwierige Administration, Datenschutzprobleme und potenzielle Probleme bei der Nutzung mehrerer Data Lakes. Die Notwendigkeit einer strengen Data-Governance-Strategie wird herausgestellt, um einige Nachteile zu minimieren.
Uwe Schmitz
Kapitel 8. Fazit
Zusammenfassung
Die vollständige Ablösung eines Data Warehouse durch einen Data Lake erscheint zum gegenwärtigen Zeitpunkt nicht als eine sinnvolle Strategie, da in einer Vielzahl von Fällen die Nutzung eines Data Warehouse weiterhin erforderlich ist. Einige Gründe sind in der Usability zu finden. Die Erstellung von Berichten gestaltet sich über einen Data Lake schwieriger als über ein Data Warehouse.
Uwe Schmitz
Backmatter
Metadaten
Titel
Data Lakes
verfasst von
Uwe Schmitz
Copyright-Jahr
2025
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-70332-8
Print ISBN
978-3-662-70331-1
DOI
https://doi.org/10.1007/978-3-662-70332-8