Skip to main content
Erschienen in: Datenbank-Spektrum 1/2020

29.01.2020 | Fachbeitrag

Data Lakes auf den Grund gegangen

Herausforderungen und Forschungslücken in der Industriepraxis

verfasst von: Corinna Giebler, Christoph Gröger, Eva Hoos, Rebecca Eichler, Holger Schwarz, Bernhard Mitschang

Erschienen in: Datenbank-Spektrum | Ausgabe 1/2020

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Unternehmen stehen zunehmend vor der Herausforderung, große, heterogene Daten zu verwalten und den darin enthaltenen Wert zu extrahieren. In den letzten Jahren kam darum der Data Lake als neuartiges Konzept auf, um diese komplexen Daten zu verwalten und zu nutzen. Wollen Unternehmen allerdings einen solchen Data Lake praktisch umsetzen, so stoßen sie auf vielfältige Herausforderungen, wie beispielsweise Widersprüche in der Definition oder unscharfe und fehlende Konzepte. In diesem Beitrag werden konkrete Projekte eines global agierenden Industrieunternehmens genutzt, um bestehende Herausforderungen zu identifizieren und Anforderungen an Data Lakes herzuleiten. Diese Anforderungen werden mit der verfügbaren Literatur zum Thema Data Lake sowie mit existierenden Ansätzen aus der Forschung abgeglichen. Die Gegenüberstellung zeigt, dass fünf große Forschungslücken bestehen: 1. Unklare Datenmodellierungsmethoden, 2. Fehlende Data-Lake-Referenzarchitektur, 3. Unvollständiges Metadatenmanagementkonzept, 4. Unvollständiges Data-Lake-Governance-Konzept, 5. Fehlende ganzheitliche Realisierungsstrategie.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Weitere Produktempfehlungen anzeigen
Literatur
1.
Zurück zum Zitat Gölzer P, Cato P, Amberg M (2015) Data processing requirements of industry 4.0—use cases for big data applications. Proceedings of the 23th European Conference on Information Systems (ECIS 2015). Gölzer P, Cato P, Amberg M (2015) Data processing requirements of industry 4.0—use cases for big data applications. Proceedings of the 23th European Conference on Information Systems (ECIS 2015).
2.
Zurück zum Zitat Lee J, Kao H‑A, Yang S (2014) Service innovation and smart Analytics for industry 4.0 and big data environment. Proceedings of the 6th CIRP Conference on Industrial Product-Service Systems.CrossRef Lee J, Kao H‑A, Yang S (2014) Service innovation and smart Analytics for industry 4.0 and big data environment. Proceedings of the 6th CIRP Conference on Industrial Product-Service Systems.CrossRef
3.
Zurück zum Zitat Lv Z, Song H, Basanta-Val P, Steed A, Jo M (2017) Next-generation big data Analytics: state of the art, challenges, and future research topics. IEEE Trans Industr Inform 13(4):1891–1899CrossRef Lv Z, Song H, Basanta-Val P, Steed A, Jo M (2017) Next-generation big data Analytics: state of the art, challenges, and future research topics. IEEE Trans Industr Inform 13(4):1891–1899CrossRef
4.
Zurück zum Zitat Russom P (2011) Big data analytics. TDWI best pract. report, 4th quart. Russom P (2011) Big data analytics. TDWI best pract. report, 4th quart.
6.
7.
Zurück zum Zitat Analytics IBM (2016) The governed data lake approach Analytics IBM (2016) The governed data lake approach
8.
Zurück zum Zitat Tyagi P, Demirkan H (2016) Data lakes: the biggest big data challenges. Analytics 9(6):56–63 Tyagi P, Demirkan H (2016) Data lakes: the biggest big data challenges. Analytics 9(6):56–63
9.
Zurück zum Zitat Ravat F, Zhao Y (2019) Data lakes: trends and perspectives. Proceedings of the 30th International Conference on Database and Expert Systems Applications (DEXA 2019). Ravat F, Zhao Y (2019) Data lakes: trends and perspectives. Proceedings of the 30th International Conference on Database and Expert Systems Applications (DEXA 2019).
10.
Zurück zum Zitat Chessell M, Jones NL, Limburn J, Radley D, Shan K (2015) Designing and operating a data reservoir Chessell M, Jones NL, Limburn J, Radley D, Shan K (2015) Designing and operating a data reservoir
11.
Zurück zum Zitat Giebler C, Gröger C, Hoos E, Schwarz H, Mitschang B (2019) Leveraging the data lake—current state and challenges. Proceedings of the 21st International Conference on Big Data Analytics and Knowledge Discovery (DaWaK 2019).CrossRef Giebler C, Gröger C, Hoos E, Schwarz H, Mitschang B (2019) Leveraging the data lake—current state and challenges. Proceedings of the 21st International Conference on Big Data Analytics and Knowledge Discovery (DaWaK 2019).CrossRef
12.
Zurück zum Zitat Gausemeier J, Plass C (2014) Zukunftsorientierte Unternehmensgestaltung. Carl Hanser, MünchenCrossRef Gausemeier J, Plass C (2014) Zukunftsorientierte Unternehmensgestaltung. Carl Hanser, MünchenCrossRef
13.
Zurück zum Zitat Gröger C (2018) Building an industry 4.0 analytics platform. Datenbank Spektrum 18(1):5–14CrossRef Gröger C (2018) Building an industry 4.0 analytics platform. Datenbank Spektrum 18(1):5–14CrossRef
14.
Zurück zum Zitat Terrizzano I, Schwarz P, Roth M, Colino JE (2015) Data wrangling: the challenging journey from the wild to the lake. Proceedings of the 7th Biennial Conference on Innovative Data Systems Research (CIDR’15). Terrizzano I, Schwarz P, Roth M, Colino JE (2015) Data wrangling: the challenging journey from the wild to the lake. Proceedings of the 7th Biennial Conference on Innovative Data Systems Research (CIDR’15).
15.
Zurück zum Zitat Stefanowski J, Krawiec K, Wrembel R (2017) Exploring complex and big data. Int J Appl Math Comput Sci 27(4):669–679CrossRefMathSciNetMATH Stefanowski J, Krawiec K, Wrembel R (2017) Exploring complex and big data. Int J Appl Math Comput Sci 27(4):669–679CrossRefMathSciNetMATH
16.
Zurück zum Zitat O’Leary DE (2014) Embedding AI and Crowdsourcing in the big data lake. IEEE Intell Syst 29(5):70–73CrossRef O’Leary DE (2014) Embedding AI and Crowdsourcing in the big data lake. IEEE Intell Syst 29(5):70–73CrossRef
17.
Zurück zum Zitat Loshin D (2009) Master data management. Elsevier, AmsterdamMATH Loshin D (2009) Master data management. Elsevier, AmsterdamMATH
18.
Zurück zum Zitat Schnider D, Jordan C, Welker P, Wehner J (2016) Data warehouse blueprints – business intelligence in der praxis. Carl Hanser, MünchenCrossRef Schnider D, Jordan C, Welker P, Wehner J (2016) Data warehouse blueprints – business intelligence in der praxis. Carl Hanser, MünchenCrossRef
19.
Zurück zum Zitat Larson D, Chang V (2016) A review and future direction of agile, business intelligence, analytics and data science. Int J Inf Manage 36(5):700–710CrossRef Larson D, Chang V (2016) A review and future direction of agile, business intelligence, analytics and data science. Int J Inf Manage 36(5):700–710CrossRef
20.
Zurück zum Zitat Chen H, Chiang RHL, Storey VC (2012) Business intelligence and Analytics: from big data to big impact. MIS Q 36(4):1165–1188CrossRef Chen H, Chiang RHL, Storey VC (2012) Business intelligence and Analytics: from big data to big impact. MIS Q 36(4):1165–1188CrossRef
21.
Zurück zum Zitat Russom P (2017) Data lakes—purposes, practices, patterns, and platforms Russom P (2017) Data lakes—purposes, practices, patterns, and platforms
24.
Zurück zum Zitat Madera C, Laurent A (2016) The next information architecture evolution: the data lake wave. Proceedings of the 8th International Conference on Management of Digital EcoSystems (MEDES). ACM, New YorkCrossRef Madera C, Laurent A (2016) The next information architecture evolution: the data lake wave. Proceedings of the 8th International Conference on Management of Digital EcoSystems (MEDES). ACM, New YorkCrossRef
25.
Zurück zum Zitat Fang H (2015) Managing data lakes in big data era: what’s a data lake and why has it became popular in data management ecosystem. Proceedings of the 2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems (CYBER 2015). Fang H (2015) Managing data lakes in big data era: what’s a data lake and why has it became popular in data management ecosystem. Proceedings of the 2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems (CYBER 2015).
26.
Zurück zum Zitat Gröger C, Hoos E (2019) Ganzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis. Proceedings der 18. Fachtagung Datenbanksysteme für Business, Technologie und Web (BTW). Gröger C, Hoos E (2019) Ganzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis. Proceedings der 18. Fachtagung Datenbanksysteme für Business, Technologie und Web (BTW).
27.
Zurück zum Zitat Lock M (2016) Maximizing your data lake with a cloud or hybrid approach Lock M (2016) Maximizing your data lake with a cloud or hybrid approach
28.
Zurück zum Zitat Madsen M (2015) How to build an enterprise data lake: important considerations before jumping in Madsen M (2015) How to build an enterprise data lake: important considerations before jumping in
30.
Zurück zum Zitat Patel P, Wood G, Diaz A (2017) Data lake governance best practices. Dzone Guid. to big data—data sci. Adv Anal 4:6–7 Patel P, Wood G, Diaz A (2017) Data lake governance best practices. Dzone Guid. to big data—data sci. Adv Anal 4:6–7
31.
Zurück zum Zitat Chessell M, Scheepers F, Nguyen N, van Kessel R, van der Starre R (2014) Governing and managing big data for analytics and decision makers Chessell M, Scheepers F, Nguyen N, van Kessel R, van der Starre R (2014) Governing and managing big data for analytics and decision makers
32.
Zurück zum Zitat Topchyan AR (2016) Enabling data driven projects for a modern enterprise. Proc Inst Syst Progr Ras 28(3):209–230CrossRef Topchyan AR (2016) Enabling data driven projects for a modern enterprise. Proc Inst Syst Progr Ras 28(3):209–230CrossRef
33.
Zurück zum Zitat Stein B, Morrison A (2014) The enterprise data lake: Better integration and deeper analytics. In: Technol Forecast Rethink Integr, Bd. 1 Stein B, Morrison A (2014) The enterprise data lake: Better integration and deeper analytics. In: Technol Forecast Rethink Integr, Bd. 1
34.
Zurück zum Zitat Stiglich P (2014) Data modeling in the age of big data. Bus Intell J 19(4):17–22 Stiglich P (2014) Data modeling in the age of big data. Bus Intell J 19(4):17–22
36.
Zurück zum Zitat Walker C, Alrehamy H (2015) Personal data lake with data gravity pull. Proceedings of the 2015 IEEE Fifth International Conference on Big Data and Cloud Computing (BDCloud’15).CrossRef Walker C, Alrehamy H (2015) Personal data lake with data gravity pull. Proceedings of the 2015 IEEE Fifth International Conference on Big Data and Cloud Computing (BDCloud’15).CrossRef
37.
Zurück zum Zitat Giebler C, Gröger C, Hoos E, Schwarz H, Mitschang B (2019) Modeling data lakes with data vault: practical experiences, assessment, and lessons learned. Proceedings of the 38th Conference on Conceptual Modeling (ER 2019). Giebler C, Gröger C, Hoos E, Schwarz H, Mitschang B (2019) Modeling data lakes with data vault: practical experiences, assessment, and lessons learned. Proceedings of the 38th Conference on Conceptual Modeling (ER 2019).
38.
Zurück zum Zitat Cernjeka K, Jaksic D, Jovanovic V (2018) NoSQL document store translation to data vault based EDW. Proceedings of the 41st International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO 2018).CrossRef Cernjeka K, Jaksic D, Jovanovic V (2018) NoSQL document store translation to data vault based EDW. Proceedings of the 41st International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO 2018).CrossRef
39.
Zurück zum Zitat Gröger C, Schwarz H, Mitschang B (2014) The deep data warehouse: link-based integration and enrichment of warehouse data and unstructured content. Proceedings of the 2014 IEEE 18th International Enterprise Distributed Object Computing Conference (EDOC 2014). Gröger C, Schwarz H, Mitschang B (2014) The deep data warehouse: link-based integration and enrichment of warehouse data and unstructured content. Proceedings of the 2014 IEEE 18th International Enterprise Distributed Object Computing Conference (EDOC 2014).
40.
Zurück zum Zitat Inmon B (2016) Data lake architecture—designing the data lake and avoiding the garbage dump (Technics Publications) Inmon B (2016) Data lake architecture—designing the data lake and avoiding the garbage dump (Technics Publications)
41.
Zurück zum Zitat Sharma B (2018) Architecting data lakes—data management architectures for advanced business use cases. O’Reilly, Sebastopol Sharma B (2018) Architecting data lakes—data management architectures for advanced business use cases. O’Reilly, Sebastopol
42.
Zurück zum Zitat Marz N, Warren J (2015) Big data—principles and best practices of scalable real-time data systems. Manning, Shelter Island Marz N, Warren J (2015) Big data—principles and best practices of scalable real-time data systems. Manning, Shelter Island
43.
Zurück zum Zitat Giebler C, Stach C, Schwarz H, Mitschang B (2018) BRAID—a hybrid processing architecture for big data. Proceedings of the 7th International Conference on Data Science, Technology and Applications (DATA 2018). SCITEPRESS, SetúbalCrossRef Giebler C, Stach C, Schwarz H, Mitschang B (2018) BRAID—a hybrid processing architecture for big data. Proceedings of the 7th International Conference on Data Science, Technology and Applications (DATA 2018). SCITEPRESS, SetúbalCrossRef
44.
Zurück zum Zitat Nadal S, Herrero V, Romero O, Abelló A, Franch X, Vansummeren S, Valerio D (2017) A software reference architecture for semantic-aware Big Data systems. Inf Softw Technol 90:75–92CrossRef Nadal S, Herrero V, Romero O, Abelló A, Franch X, Vansummeren S, Valerio D (2017) A software reference architecture for semantic-aware Big Data systems. Inf Softw Technol 90:75–92CrossRef
45.
Zurück zum Zitat Zikopoulos P, DeRoos D, Bienko C, Buglio R, Andrews M (2015) Big data beyond the hype. McGraw-Hill, New York Zikopoulos P, DeRoos D, Bienko C, Buglio R, Andrews M (2015) Big data beyond the hype. McGraw-Hill, New York
46.
Zurück zum Zitat Sadalage PJ, Fowler M (2013) NoSQL distilled—a brief guide to the emerging world of polyglot persistence. Pearson, London Sadalage PJ, Fowler M (2013) NoSQL distilled—a brief guide to the emerging world of polyglot persistence. Pearson, London
47.
Zurück zum Zitat Abraham R, Schneider J, vom Brocke J (2019) Data governance: a conceptual framework, structured view, and research agenda. Int J Inf Manage 49:424–438CrossRef Abraham R, Schneider J, vom Brocke J (2019) Data governance: a conceptual framework, structured view, and research agenda. Int J Inf Manage 49:424–438CrossRef
48.
Zurück zum Zitat Quix C, Hai R, Vatov I (2016) Metadata extraction and management in data lakes with GEMMS. Complex Syst Inf Model Q 9(9):67–83 Quix C, Hai R, Vatov I (2016) Metadata extraction and management in data lakes with GEMMS. Complex Syst Inf Model Q 9(9):67–83
49.
Zurück zum Zitat Gallinucci E, Golfarelli M, Rizzi S (2018) Schema profiling of document-oriented databases. Inf Syst 75:13–25CrossRef Gallinucci E, Golfarelli M, Rizzi S (2018) Schema profiling of document-oriented databases. Inf Syst 75:13–25CrossRef
50.
Zurück zum Zitat Nogueira I, Romdhane M, Darmont J (2018) Modeling data lake Metadata with a data vault. Proceedings of the 22nd International Database Engineering Applications Symposium (IDEAS 2018).CrossRef Nogueira I, Romdhane M, Darmont J (2018) Modeling data lake Metadata with a data vault. Proceedings of the 22nd International Database Engineering Applications Symposium (IDEAS 2018).CrossRef
51.
Zurück zum Zitat Sawadogo PN, Scholly É, Favre C, Ferey É, Loudcher S, Darmont J (2019) Metadata systems for data lakes: models and features. Proceedings of the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019). Sawadogo PN, Scholly É, Favre C, Ferey É, Loudcher S, Darmont J (2019) Metadata systems for data lakes: models and features. Proceedings of the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019).
52.
Zurück zum Zitat Sawadogo P, Kibata T, Darmont J (2019) Metadata management for textual documents in data lakes. Proceedings of the 21st International Conference on Enterprise Information Systems (ICEIS 2019). SCITEPRESS, SetúbalCrossRef Sawadogo P, Kibata T, Darmont J (2019) Metadata management for textual documents in data lakes. Proceedings of the 21st International Conference on Enterprise Information Systems (ICEIS 2019). SCITEPRESS, SetúbalCrossRef
53.
Zurück zum Zitat Ravat F, Zhao Y (2019) Metadata management for data lakes. Proceedings of the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019).CrossRef Ravat F, Zhao Y (2019) Metadata management for data lakes. Proceedings of the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019).CrossRef
Metadaten
Titel
Data Lakes auf den Grund gegangen
Herausforderungen und Forschungslücken in der Industriepraxis
verfasst von
Corinna Giebler
Christoph Gröger
Eva Hoos
Rebecca Eichler
Holger Schwarz
Bernhard Mitschang
Publikationsdatum
29.01.2020
Verlag
Springer Berlin Heidelberg
Erschienen in
Datenbank-Spektrum / Ausgabe 1/2020
Print ISSN: 1618-2162
Elektronische ISSN: 1610-1995
DOI
https://doi.org/10.1007/s13222-020-00332-0

Weitere Artikel der Ausgabe 1/2020

Datenbank-Spektrum 1/2020 Zur Ausgabe

Dissertationen

Dissertationen

Community

News