2012 | OriginalPaper | Buchkapitel
Duplikaterkennung
verfasst von : Uwe Draisbach
Erschienen in: Partitionierung zur effizienten Duplikaterkennung in relationalen Daten
Verlag: Vieweg+Teubner Verlag
Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.
Wählen Sie Textabschnitte aus um mit Künstlicher Intelligenz passenden Patente zu finden. powered by
Markieren Sie Textabschnitte, um KI-gestützt weitere passende Inhalte zu finden. powered by
Daten liegen heutzutage zumeist nicht mehr zentral an einem physischen Ort vor, sondern sind weltweit an jeweils lokalen Orten verteilt. Für einen vollständigen Überblick über die Daten ist es notwendig, die verschiedenen Quellen zu integrieren und in einer einheitlichen Sicht darzustellen. Dies ist Aufgabe der Datenintegration, die jedoch dadurch erschwert wird, dass die Quellen verteilt, autonom und heterogen sind. Autonomie bedeutet, dass die Quellen unabhängig voneinander erstellt und gepflegt werden. Die Autonomie der Quellen ist daher auch die Ursache für die Heterogenität der Quellen. Bei struktureller Heterogenität ist ein bestimmter Sachverhalt der Realwelt in zwei Quellen unterschiedlich modelliert. Demgegenüber steht die semantische Heterogenität, bei der ein modellierter Sachverhalt in verschiedenen Systemen eine unterschiedliche Bedeutung hat. Die Lösung dieser Heterogenitäten ist Aufgabe des Schema-Matchings.