Skip to main content

2016 | OriginalPaper | Buchkapitel

Distributed Sequential Pattern Mining in Large Scale Uncertain Databases

verfasst von : Jiaqi Ge, Yuni Xia

Erschienen in: Advances in Knowledge Discovery and Data Mining

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

While sequential pattern mining (SPM) is an import application in uncertain databases, it is challenging in efficiency and scalability. In this paper, we develop a dynamic programming (DP) approach to mine probabilistic frequent sequential patterns in distributed computing platform Spark. Directly applying the DP method to Spark is impractical because its memory-consuming characteristic may cause heavy JVM garbage collection overhead in Spark. Therefore, we design a memory-efficient distributed DP approach and use an extended prefix-tree to save intermediate results efficiently. The extensive experimental results in various scales prove that our method is orders of magnitude faster than straight-forward approaches.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Agarwal, A., Xie, B., Vovsha, I., Rambow, O., Passonneau, R.: Sentiment analysis of twitter data. In: Proceedings of the Workshop on Languages in Social Media, pp. 30–38 (2011) Agarwal, A., Xie, B., Vovsha, I., Rambow, O., Passonneau, R.: Sentiment analysis of twitter data. In: Proceedings of the Workshop on Languages in Social Media, pp. 30–38 (2011)
2.
Zurück zum Zitat Aggarwal, C.C., Yu, P.S.: A survey of uncertain data algorithms and applications. IEEE Trans. Knowl. Data Eng. 21(5), 609–623 (2009)CrossRef Aggarwal, C.C., Yu, P.S.: A survey of uncertain data algorithms and applications. IEEE Trans. Knowl. Data Eng. 21(5), 609–623 (2009)CrossRef
3.
Zurück zum Zitat Agrawal, R., Srikant, R.: Fast algorithms for mining association rules in large databases. In: VLDB, pp. 487–499 (1994) Agrawal, R., Srikant, R.: Fast algorithms for mining association rules in large databases. In: VLDB, pp. 487–499 (1994)
4.
Zurück zum Zitat Bernecker, T., Kriegel, H.P., Renz, M., Verhein, F., Zuefle, A.: Probabilistic frequent itemset mining in uncertain databases. In: SIGKDD, pp. 119–128. ACM (2009) Bernecker, T., Kriegel, H.P., Renz, M., Verhein, F., Zuefle, A.: Probabilistic frequent itemset mining in uncertain databases. In: SIGKDD, pp. 119–128. ACM (2009)
5.
Zurück zum Zitat Chen, C.C., Tseng, C.Y., Chen, M.S.: Highly scalable sequential pattern mining based on mapreduce model on the cloud. In: BigData Congress, pp. 310–317 (2013) Chen, C.C., Tseng, C.Y., Chen, M.S.: Highly scalable sequential pattern mining based on mapreduce model on the cloud. In: BigData Congress, pp. 310–317 (2013)
6.
Zurück zum Zitat Gao, Y., Sun, Z., Wang, Y., Liu, X., Yan, J., Zeng, J.: A comparative study on parallel LDA algorithms in mapreduce framework. In: Cao, T., Lim, E.P., Zhou, Z.H., Ho, T.B., Cheung, David, Motoda, Hiroshi (eds.) PAKDD 2015. LNCS, vol. 9078, pp. 675–689. Springer, Heidelberg (2015)CrossRef Gao, Y., Sun, Z., Wang, Y., Liu, X., Yan, J., Zeng, J.: A comparative study on parallel LDA algorithms in mapreduce framework. In: Cao, T., Lim, E.P., Zhou, Z.H., Ho, T.B., Cheung, David, Motoda, Hiroshi (eds.) PAKDD 2015. LNCS, vol. 9078, pp. 675–689. Springer, Heidelberg (2015)CrossRef
7.
Zurück zum Zitat Jestes, J., Cormode, G., Li, F., Yi, K.: Semantics of ranking queries for probabilistic data. IEEE Trans. Knowl. Data Eng. 23(12), 1903–1917 (2011)CrossRef Jestes, J., Cormode, G., Li, F., Yi, K.: Semantics of ranking queries for probabilistic data. IEEE Trans. Knowl. Data Eng. 23(12), 1903–1917 (2011)CrossRef
8.
Zurück zum Zitat Li, Y., Bailey, J., Kulik, L., Pei, J.: Mining probabilistic frequent spatio-temporal sequential patterns with gap constraints from uncertain databases. In: IEEE International Conference on Data Mining, pp. 448–457 (2013) Li, Y., Bailey, J., Kulik, L., Pei, J.: Mining probabilistic frequent spatio-temporal sequential patterns with gap constraints from uncertain databases. In: IEEE International Conference on Data Mining, pp. 448–457 (2013)
9.
Zurück zum Zitat Miliaraki, I., Berberich, K., Gemulla, R., Zoupanos, S.: Mind the gap: large-scale frequent sequence mining. In: SIGKDD, pp. 797–808 (2013) Miliaraki, I., Berberich, K., Gemulla, R., Zoupanos, S.: Mind the gap: large-scale frequent sequence mining. In: SIGKDD, pp. 797–808 (2013)
10.
Zurück zum Zitat Muzammal, M., Raman, R.: Mining sequential patterns from probabilistic databases. In: PAKDD, pp. 210–221 (2011) Muzammal, M., Raman, R.: Mining sequential patterns from probabilistic databases. In: PAKDD, pp. 210–221 (2011)
11.
Zurück zum Zitat Wan, L., Chen, L., Zhang, C.: Mining frequent serial episodes over uncertain sequence data. In: EDBT, pp. 215–226 (2013) Wan, L., Chen, L., Zhang, C.: Mining frequent serial episodes over uncertain sequence data. In: EDBT, pp. 215–226 (2013)
12.
Zurück zum Zitat Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M.J., Shenker, S., Stoica, I.: Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing. In: NSDI 2012 (2012) Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M.J., Shenker, S., Stoica, I.: Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing. In: NSDI 2012 (2012)
13.
Zurück zum Zitat Zhao, Z., Yan, D., Ng, W.: Mining probabilistically frequent sequential patterns in uncertain databases. In: EDBT, pp. 74–85 (2012) Zhao, Z., Yan, D., Ng, W.: Mining probabilistically frequent sequential patterns in uncertain databases. In: EDBT, pp. 74–85 (2012)
14.
Zurück zum Zitat Zhao, Z., Yan, D., Ng, W.: Mining probabilistically frequent sequential patterns in large uncertain databases. IEEE Trans. Knowl. Data Eng. 26, 1171–1184 (2013)CrossRef Zhao, Z., Yan, D., Ng, W.: Mining probabilistically frequent sequential patterns in large uncertain databases. IEEE Trans. Knowl. Data Eng. 26, 1171–1184 (2013)CrossRef
Metadaten
Titel
Distributed Sequential Pattern Mining in Large Scale Uncertain Databases
verfasst von
Jiaqi Ge
Yuni Xia
Copyright-Jahr
2016
DOI
https://doi.org/10.1007/978-3-319-31750-2_2

Premium Partner