Skip to main content
Erschienen in: HMD Praxis der Wirtschaftsinformatik 3/2018

11.01.2018 | Schwerpunkt

Erkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzung

verfasst von: Tobias Lindner, Peter Mandl, Nikolai Bauer, Markus Grimm

Erschienen in: HMD Praxis der Wirtschaftsinformatik | Ausgabe 3/2018

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Die Beschreibung von Musikwerken ist heute nicht international genormt und daher kommt es vor allem in der Online-Musiknutzung häufig vor, dass Musikwerke in Online-Plattformen wie Spotify und Apple Music unterschiedlich gespeichert sind. Die Abrechnung von Musiknutzungen ist bei den zuständigen Verwertungsgesellschaften zwar schon seit längerem digitalisiert, aber die Feststellung der Eindeutigkeit von Musikwerken ist nicht ohne weiteres möglich. Dazu bedarf es effizienter Algorithmen zur Objektidentifikation. In dieser Arbeit wird ein Vergleich verschiedener Algorithmen wie Damerau-Levenshtein, Jaro-Winkler, Smith-Waterman u. a. zur Objektidentifikation bei Musikwerken durchgeführt. Da es sich um sehr rechenintensive Algorithmen handelt, haben wir die Algorithmen für eine Massenverarbeitung in einem Apache Hadoop-Cluster unter Nutzung von MapReduce adaptiert. Über einen umfangreichen Vergleichsdatensatz, der mit Apache HBase verteilt gespeichert wurde, haben wir die wichtigsten Algorithmen auf die Qualität der Duplikatserkennung und auf ihre Leistung hin untersucht. Es hat sich gezeigt, dass die sehr häufig verwendete Levenshtein-Distanz nicht am besten abschneidet. Durch den Einsatz anderer Algorithmen, beispielsweise der Jaro-Winkler-Distanz sind bessere Ergebnisse erzielbar und zwar sowohl bei der Zuordnungsqualität als auch bei der Verarbeitungsgeschwindigkeit.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Weitere Produktempfehlungen anzeigen
Fußnoten
1
Die GEMA (Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte) vertritt in Deutschland die Urheberrechte von mehr als 70.000 Komponisten, Textdichtern und Musikverlegern. Siehe https://​www.​gema.​de/​. Zugegriffen am: 5. Dezember 2017.
 
2
Eine detaillierte Beschreibung des MapReduce-Ansatzes kann in der offiziellen Veröffentlichung von (Dean et al. 2004) nachgelesen werden.
 
3
Die Ermittlung eines optimalen Schwellwertes für jede Ähnlichkeitsmetrik wäre eine weitere Forschungsaufgabe und wird in dieser Arbeit nicht weiter betrachtet.
 
4
QPI steht für QuickPath Interconnect, ein System zur Kommunikation zwischen Prozessoren und zwischen Prozessoren und Chipsatz in Intel Prozessoren.
 
5
Siehe http://​www.​vmware.​com, Zugegriffen: 21.07.2017.
 
Literatur
Zurück zum Zitat Apel D, Behme W, Eberlei R, Merighi C (2010) Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte. 2., vollständig überarbeitete und erweiterte Auflage. Carl Hanser, MünchenCrossRef Apel D, Behme W, Eberlei R, Merighi C (2010) Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte. 2., vollständig überarbeitete und erweiterte Auflage. Carl Hanser, MünchenCrossRef
Zurück zum Zitat Baeza-Yates R, Ribeiro-Neto B (1999) Modern information retrieval. Addison-Wesley, Harlow Baeza-Yates R, Ribeiro-Neto B (1999) Modern information retrieval. Addison-Wesley, Harlow
Zurück zum Zitat Bergroth L, Hakonen H, Raita T (2000) A survey of longest common subsequence algorithms. In: SPIRE (String Processing and Information Retrieval), S 39–48 Bergroth L, Hakonen H, Raita T (2000) A survey of longest common subsequence algorithms. In: SPIRE (String Processing and Information Retrieval), S 39–48
Zurück zum Zitat Charras C, Lecroq T (2004) Handbook of exact string matching algorithms. King’s College Publications, LondonMATH Charras C, Lecroq T (2004) Handbook of exact string matching algorithms. King’s College Publications, LondonMATH
Zurück zum Zitat Damerau FJ (1964) A technique for computer detection and correction of spelling errors. Commun ACM 7(3):171–176CrossRef Damerau FJ (1964) A technique for computer detection and correction of spelling errors. Commun ACM 7(3):171–176CrossRef
Zurück zum Zitat Dean J, Ghemawat, Sanjay (2004) MapReduce: simplified data processing on large clusters. Google labs. OSDI’04: Sixth Symposium on Operating System Design and Implementation, San Francisco Dean J, Ghemawat, Sanjay (2004) MapReduce: simplified data processing on large clusters. Google labs. OSDI’04: Sixth Symposium on Operating System Design and Implementation, San Francisco
Zurück zum Zitat Dice LR (1945) Measures of the amount of ecologic association between species. Ecology 26(3):297–302CrossRef Dice LR (1945) Measures of the amount of ecologic association between species. Ecology 26(3):297–302CrossRef
Zurück zum Zitat Gotoh O (1982) An improved algorithm for matching biological sequences. J Mol Biol 162:705–708CrossRef Gotoh O (1982) An improved algorithm for matching biological sequences. J Mol Biol 162:705–708CrossRef
Zurück zum Zitat Jaccard P (1901) Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bull Soc Vaudoise Des Sci Nat 37:547–579 Jaccard P (1901) Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bull Soc Vaudoise Des Sci Nat 37:547–579
Zurück zum Zitat Jaro MA (1989) Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida. J Am Stat Assoc 84(406):414–420CrossRef Jaro MA (1989) Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida. J Am Stat Assoc 84(406):414–420CrossRef
Zurück zum Zitat Jaro MA (1995) Probabilistic linkage of large public health data files. Stat Med 14(5–7):491–498CrossRef Jaro MA (1995) Probabilistic linkage of large public health data files. Stat Med 14(5–7):491–498CrossRef
Zurück zum Zitat Levenshtein VI (1965) Binary codes capable of correcting deletions, insertions, and reversals. Dokl Akad Nauk SSSR 163(4):845–848 (Russisch, Englische Übersetzung in: Soviet Physics Doklady, 10(8) pp. 707–710, 1966)MathSciNetMATH Levenshtein VI (1965) Binary codes capable of correcting deletions, insertions, and reversals. Dokl Akad Nauk SSSR 163(4):845–848 (Russisch, Englische Übersetzung in: Soviet Physics Doklady, 10(8) pp. 707–710, 1966)MathSciNetMATH
Zurück zum Zitat Monge AE, Elkan CP (1996) The field matching problem: algorithms and applications. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, S 267–270 Monge AE, Elkan CP (1996) The field matching problem: algorithms and applications. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, S 267–270
Zurück zum Zitat Naumann F, Herschel M (2010) An introduction to duplicate detection. Morgan and Claypool, San RafaelMATH Naumann F, Herschel M (2010) An introduction to duplicate detection. Morgan and Claypool, San RafaelMATH
Zurück zum Zitat Schnell R (2010) Record linkage from a technical point of view. In: German Data Forum (RatSWD) (Hrsg) Building on progress: expanding the research infrastructure for the social, economic, and behavioral sciences, Bd. 1. Budrich UniPress, Opladen, S 531–545 Schnell R (2010) Record linkage from a technical point of view. In: German Data Forum (RatSWD) (Hrsg) Building on progress: expanding the research infrastructure for the social, economic, and behavioral sciences, Bd. 1. Budrich UniPress, Opladen, S 531–545
Zurück zum Zitat Schöning U (2001) Algorithmik, 13. Aufl. Spektrum Akademischer Verlag, HeidelbergMATH Schöning U (2001) Algorithmik, 13. Aufl. Spektrum Akademischer Verlag, HeidelbergMATH
Zurück zum Zitat Singhal A (2001) Modern information retrieval: a brief overview. Bull IEEE Comput Soc Tech Comm Data Eng 24(4):35–43 Singhal A (2001) Modern information retrieval: a brief overview. Bull IEEE Comput Soc Tech Comm Data Eng 24(4):35–43
Zurück zum Zitat Smith TF, Waterman MS (1981) Identification of common molecular subsequences. J Mol Biol 147:195–197CrossRef Smith TF, Waterman MS (1981) Identification of common molecular subsequences. J Mol Biol 147:195–197CrossRef
Zurück zum Zitat Sørensen T (1948) A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons. K Dan Videnskab Selsk 5(4):1–34 Sørensen T (1948) A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons. K Dan Videnskab Selsk 5(4):1–34
Zurück zum Zitat Strengholt B, Brobbel M (2013) Acceleration of the Smith-Waterman algorithm for DNA sequence alignment using an FPGA platform. Delft University of Technology, Delft Strengholt B, Brobbel M (2013) Acceleration of the Smith-Waterman algorithm for DNA sequence alignment using an FPGA platform. Delft University of Technology, Delft
Zurück zum Zitat Winkler WE (1990) String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage. Proceedings of the Section on Survey Research Methods (American Statistical Association), S 354–359 Winkler WE (1990) String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage. Proceedings of the Section on Survey Research Methods (American Statistical Association), S 354–359
Zurück zum Zitat Winkler WE, Thibaudeau Y (1991) n application of the Fellegi-Sunter model of record linkage to the 1990 U.S. Census. Technical report, US bureau of the census Winkler WE, Thibaudeau Y (1991) n application of the Fellegi-Sunter model of record linkage to the 1990 U.S. Census. Technical report, US bureau of the census
Metadaten
Titel
Erkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzung
verfasst von
Tobias Lindner
Peter Mandl
Nikolai Bauer
Markus Grimm
Publikationsdatum
11.01.2018
Verlag
Springer Fachmedien Wiesbaden
Erschienen in
HMD Praxis der Wirtschaftsinformatik / Ausgabe 3/2018
Print ISSN: 1436-3011
Elektronische ISSN: 2198-2775
DOI
https://doi.org/10.1365/s40702-017-0387-1

Weitere Artikel der Ausgabe 3/2018

HMD Praxis der Wirtschaftsinformatik 3/2018 Zur Ausgabe