Skip to main content

2016 | OriginalPaper | Buchkapitel

A Density-Aware Similarity Join Query Processing Algorithm on MapReduce

verfasst von : Miyoung Jang, Youngho Song, Jae-Woo Chang

Erschienen in: Advanced Multimedia and Ubiquitous Engineering

Verlag: Springer Singapore

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Recently, the amount of data is rapidly increasing and thus MapReduce has attracted much interest as a new paradigm for such data-intensive applications. Similarity join is an essential operation for data analytics, including record linkage, near duplicate detection, document clustering. However, the performance of MapReduce is limited when applied on complex data analytical task involving joins of multiple datasets. Hence, workload-aware data partitioning techniques are required, which ensure the balance of computation of each machine. In this paper, we propose a similarity join algorithm using MapReduce that provides scalability and high performance by using grid-based data mapping technique for joining datasets. From the experiment analysis, we prove that our algorithm outperforms the existing algorithm under various data size and similarity thresholds.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Lappas T, Gunopulos D (2010) Efficient confident search in large review corpora. In: Machine learning and knowledge discovery in databases. Springer, pp 195–210 Lappas T, Gunopulos D (2010) Efficient confident search in large review corpora. In: Machine learning and knowledge discovery in databases. Springer, pp 195–210
2.
Zurück zum Zitat Levandoski JJ, Mokbel MF, Khalefa ME (2010) Preference query evaluation over expensive attributes. In: Proceedings of the 19th ACM international conference on information and knowledge management. ACM, pp 319–328 Levandoski JJ, Mokbel MF, Khalefa ME (2010) Preference query evaluation over expensive attributes. In: Proceedings of the 19th ACM international conference on information and knowledge management. ACM, pp 319–328
3.
Zurück zum Zitat Lee J, Hwang SW, Nie Z, Wen JR (2010) Navigation system for product search. In: Proceedings of the 26th international conference on IEEE. IEEE, pp 1113–1116 Lee J, Hwang SW, Nie Z, Wen JR (2010) Navigation system for product search. In: Proceedings of the 26th international conference on IEEE. IEEE, pp 1113–1116
4.
Zurück zum Zitat Dean J, Ghemawat S (2008) MapReduce: simplified data processing on large clusters. Commun ACM 51(1):107–113CrossRef Dean J, Ghemawat S (2008) MapReduce: simplified data processing on large clusters. Commun ACM 51(1):107–113CrossRef
5.
Zurück zum Zitat Okcan A, Riedewald M (2011) Processing theta-joins using MapReduce. In: Proceedings of the 2011 ACM SIGMOD international conference on management of data. ACM, pp 949–960 Okcan A, Riedewald M (2011) Processing theta-joins using MapReduce. In: Proceedings of the 2011 ACM SIGMOD international conference on management of data. ACM, pp 949–960
6.
Zurück zum Zitat Zhang X, Chen L, Wang M (2012) Efficient multiway theta-join processing using MapReduce. Proc VLDB Endow (PVLDB) 5(11):1184–1195MathSciNetCrossRef Zhang X, Chen L, Wang M (2012) Efficient multiway theta-join processing using MapReduce. Proc VLDB Endow (PVLDB) 5(11):1184–1195MathSciNetCrossRef
7.
Zurück zum Zitat Das Sarma A, He Y, Chaudhuri S (2014) ClusterJoin: a similarity joins framework using map-reduce. Proc VLDB Endow 7(12):1059–1070 Das Sarma A, He Y, Chaudhuri S (2014) ClusterJoin: a similarity joins framework using map-reduce. Proc VLDB Endow 7(12):1059–1070
Metadaten
Titel
A Density-Aware Similarity Join Query Processing Algorithm on MapReduce
verfasst von
Miyoung Jang
Youngho Song
Jae-Woo Chang
Copyright-Jahr
2016
Verlag
Springer Singapore
DOI
https://doi.org/10.1007/978-981-10-1536-6_61

Neuer Inhalt