Skip to main content
main-content

Tipp

Weitere Kapitel dieses Buchs durch Wischen aufrufen

2021 | OriginalPaper | Buchkapitel

7. Datenintegration und Deduplizierung

verfasst von: Jens Bleiholder, Joachim Schmid

Erschienen in: Daten- und Informationsqualität

Verlag: Springer Fachmedien Wiesbaden

share
TEILEN

Zusammenfassung

In Unternehmen liegen viele Daten heutzutage immer seltener vollständig an einem einzigen physikalischen Ort vor, sondern sind weltweit verteilt. Dies liegt zum einen an der immer besser gewordenen Infrastruktur, die eine solche Verteilung auf einfache Art und Weise ermöglicht, und zum anderen an der Tatsache, dass viele Unternehmen weltweit tätig sind. So fallen Daten weltweit an, werden aber jeweils lokal – vor Ort – gespeichert. Daher müssen oft mehrere Datenquellen genutzt werden, um einen aktuellen, vollständigen und genauen Überblick über die vorhandenen Daten zu gewinnen. Datenintegration hilft, indem sie Daten aus mehreren Quellen zusammenführt und einheitlich darstellt. Diese integrierten Daten können genutzt werden, um sich einen Überblick über das Unternehmen zu verschaffen, z. B. wenn Unternehmen fusionieren und nur noch eine Kundendatenbank bestehen bleiben soll, oder wenn zu einem Kunden die Daten aus den verschiedenen Fachabteilungen zusammengeführt werden sollen. Anhand eines solchen Beispiels, der Integration von Kundendaten zu Kfz- und Lebensversicherungen erläutern wir im Folgenden einzelne Techniken.
Literatur
Zurück zum Zitat Bilke, A. und Naumann, F. Schema Matching using Duplicates. In: Proceedings of ICDE, 2005, S. 69–80. Bilke, A. und Naumann, F. Schema Matching using Duplicates. In: Proceedings of ICDE, 2005, S. 69–80.
Zurück zum Zitat Bleiholder, J. und Naumann, F. Conflict Handling Strategies in an Integrated Information System. In: Proceedings of IIWeb workshop, 2006. Bleiholder, J. und Naumann, F. Conflict Handling Strategies in an Integrated Information System. In: Proceedings of IIWeb workshop, 2006.
Zurück zum Zitat Fuxman, A., Fazli, E. und Miller, R. J. ConQuer: Efficient Management of Inconsistent Databases. In: Proceedings of SIGMOD, 2005, S. 155–166. Fuxman, A., Fazli, E. und Miller, R. J. ConQuer: Efficient Management of Inconsistent Databases. In: Proceedings of SIGMOD, 2005, S. 155–166.
Zurück zum Zitat Hernandez, M. und Stolfo, S. The Merge/Purge Problem for Large Databases. In: Proceedings of SIGMOD, 1995, S. 127–138. Hernandez, M. und Stolfo, S. The Merge/Purge Problem for Large Databases. In: Proceedings of SIGMOD, 1995, S. 127–138.
Zurück zum Zitat Leser, U. und Naumann, F. Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, Heidelberg, 2006. MATH Leser, U. und Naumann, F. Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, Heidelberg, 2006. MATH
Zurück zum Zitat Levenshtein, V. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones. In: Problems of Information Transmission, 1965, 1, S. 8–17. Levenshtein, V. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones. In: Problems of Information Transmission, 1965, 1, S. 8–17.
Zurück zum Zitat Madhavan, J., Bernstein, P. und Rahm, E. Generic Schema Matching with CUPID. In: Proceedings of VLDB, 2001, S. 49–58. Madhavan, J., Bernstein, P. und Rahm, E. Generic Schema Matching with CUPID. In: Proceedings of VLDB, 2001, S. 49–58.
Zurück zum Zitat Melnik, S., Garcia-Molina, H. und Rahm, E. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In: Proceedings of ICDE, 2002, S. 117–128. Melnik, S., Garcia-Molina, H. und Rahm, E. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In: Proceedings of ICDE, 2002, S. 117–128.
Zurück zum Zitat Naumann, F., Bilke, A., Bleiholder, J., und Weis, M. Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. In: Data Engineering Bulletin. 29(2), 2006, S. 21–31. Naumann, F., Bilke, A., Bleiholder, J., und Weis, M. Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. In: Data Engineering Bulletin. 29(2), 2006, S. 21–31.
Zurück zum Zitat Rahm, E. und Bernstein, P. A. On Matching Schemas Automatically. Technischer Bericht, Microsoft Research, 2001. Rahm, E. und Bernstein, P. A. On Matching Schemas Automatically. Technischer Bericht, Microsoft Research, 2001.
Zurück zum Zitat Schmid, J. The Main Steps to Data Quality In: Advances in Data Mining, 4th Industrial Conference on Data Mining, ICDM 2004, Revised Selected Papers, Springer, S. 69–77. Schmid, J. The Main Steps to Data Quality In: Advances in Data Mining, 4th Industrial Conference on Data Mining, ICDM 2004, Revised Selected Papers, Springer, S. 69–77.
Zurück zum Zitat Winkler, W. The State of Record Linkage and Current Research Problems. Statistics of Income Division, Internal Revenue Service Publication R99/04, 1999. Winkler, W. The State of Record Linkage and Current Research Problems. Statistics of Income Division, Internal Revenue Service Publication R99/04, 1999.
Metadaten
Titel
Datenintegration und Deduplizierung
verfasst von
Jens Bleiholder
Joachim Schmid
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-30991-6_7

Premium Partner