Skip to main content
Erschienen in: The Journal of Supercomputing 10/2020

11.07.2019

Hash-tree PCA: accelerating PCA with hash-based grouping

verfasst von: Lkhagvadorj Battulga, Sang-Hyun Lee, Aziz Nasridinov, Kwan-Hee Yoo

Erschienen in: The Journal of Supercomputing | Ausgabe 10/2020

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

In data mining or machine learning, one of the most commonly used feature extraction techniques is principal component analysis (PCA). However, it performs poorly on a large dataset. In this paper, we propose a new method of accelerating conventional PCA, named hash-tree PCA. It samples the objects that are similar to each other without losing the original data distribution. First, it explores similar objects and stores them in hash tables. Afterward, it samples a certain number of the objects from each hash table and creates a new dataset with a reduced number of objects. Finally, it executes PCA on the sampled dataset. Experimental results show that our method outperforms the PCA and fast PCA methods.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Augusto JC (2009) Past, present and future of ambient intelligence and smart environments. In: International Conference on Agents and Artificial Intelligence, pp. 3–15. Springer, Berlin Augusto JC (2009) Past, present and future of ambient intelligence and smart environments. In: International Conference on Agents and Artificial Intelligence, pp. 3–15. Springer, Berlin
2.
Zurück zum Zitat Pearson K (1901) LIII. On lines and planes of closest fit to systems of points in space. Lond. Edinb. Dublin Philos Mag J Sci 2(11):559–572CrossRef Pearson K (1901) LIII. On lines and planes of closest fit to systems of points in space. Lond. Edinb. Dublin Philos Mag J Sci 2(11):559–572CrossRef
3.
Zurück zum Zitat McAfee A, Brynjolfsson E, Davenport TH, Patil DJ, Barton D (2012) Big data: the management revolution. Harvard Bus Rev 90(10):60–68 McAfee A, Brynjolfsson E, Davenport TH, Patil DJ, Barton D (2012) Big data: the management revolution. Harvard Bus Rev 90(10):60–68
4.
Zurück zum Zitat Funatsu N, Kuroki Y (2010) Fast parallel processing using GPU in computing L1-PCA bases. In: IEEE Region 10 Conference TENCON, pp 2087–2090 Funatsu N, Kuroki Y (2010) Fast parallel processing using GPU in computing L1-PCA bases. In: IEEE Region 10 Conference TENCON, pp 2087–2090
5.
Zurück zum Zitat Vogt F, Tacke M (2001) Fast principal component analysis of large data sets. Chemometr Intell Lab Syst 59(1–2):1–18CrossRef Vogt F, Tacke M (2001) Fast principal component analysis of large data sets. Chemometr Intell Lab Syst 59(1–2):1–18CrossRef
6.
Zurück zum Zitat Battulga L, Nasridinov A, Yoo KH (2017) Quad-PCA: quad-tree based data composition for fast PCA. In: International Conference on Big Data Applications and Services, pp 331–338 Battulga L, Nasridinov A, Yoo KH (2017) Quad-PCA: quad-tree based data composition for fast PCA. In: International Conference on Big Data Applications and Services, pp 331–338
7.
Zurück zum Zitat Golub GH (1996) CF van loan. Matrix Computations, The Johns Hopkins Golub GH (1996) CF van loan. Matrix Computations, The Johns Hopkins
8.
Zurück zum Zitat Zhu X, Li X, Zhang S, Xu Z, Yu L, Wang C (2017) Graph PCA hashing for similarity search. IEEE Trans Multimed 19(9):2033–2044CrossRef Zhu X, Li X, Zhang S, Xu Z, Yu L, Wang C (2017) Graph PCA hashing for similarity search. IEEE Trans Multimed 19(9):2033–2044CrossRef
9.
Zurück zum Zitat Mao M, Zheng Z, Chen Z, Liu H, He X, Ye R (2016) Two-dimensional pca hashing and its extension. In: 23rd International Conference on Pattern Recognition (ICPR), pp 1624–1629 Mao M, Zheng Z, Chen Z, Liu H, He X, Ye R (2016) Two-dimensional pca hashing and its extension. In: 23rd International Conference on Pattern Recognition (ICPR), pp 1624–1629
10.
Zurück zum Zitat Honda K, Notsu A, Ichihashi H (2010) Fuzzy PCA-guided robust k-means clustering. IEEE Trans Fuzzy Syst 18(1):67–79CrossRef Honda K, Notsu A, Ichihashi H (2010) Fuzzy PCA-guided robust k-means clustering. IEEE Trans Fuzzy Syst 18(1):67–79CrossRef
11.
12.
Zurück zum Zitat Jain A, Bakshi M, Kalele A, Subramanian E (2015) On accelerating concurrent PCA computations for financial risk applications. In: IEEE 22nd International Conference on High Performance Computing (HiPC), pp 175–184 Jain A, Bakshi M, Kalele A, Subramanian E (2015) On accelerating concurrent PCA computations for financial risk applications. In: IEEE 22nd International Conference on High Performance Computing (HiPC), pp 175–184
13.
Zurück zum Zitat Sharma A, Paliwal KK (2007) Fast principal component analysis using fixed-point algorithm. Pattern Recogn Lett 28(10):1151–1155CrossRef Sharma A, Paliwal KK (2007) Fast principal component analysis using fixed-point algorithm. Pattern Recogn Lett 28(10):1151–1155CrossRef
14.
Zurück zum Zitat Wang J, Barreto A, Rishe N, Andrian J, Adjouadi M (2011) A fast incremental multilinear principal component analysis algorithm. Int J Innov Comput Inf Control 7:6019–6040 Wang J, Barreto A, Rishe N, Andrian J, Adjouadi M (2011) A fast incremental multilinear principal component analysis algorithm. Int J Innov Comput Inf Control 7:6019–6040
15.
Zurück zum Zitat Bartelmaos S, Abed-Meraim K (2008) Fast principal component extraction using givens rotations. IEEE Signal Process Lett 15:369–372CrossRef Bartelmaos S, Abed-Meraim K (2008) Fast principal component extraction using givens rotations. IEEE Signal Process Lett 15:369–372CrossRef
16.
Zurück zum Zitat Borzsony S, Kossmann D, Stocker K (2001) The skyline operator. In: Proceedings 17th International Conference on Data Engineering, pp 421–430 Borzsony S, Kossmann D, Stocker K (2001) The skyline operator. In: Proceedings 17th International Conference on Data Engineering, pp 421–430
17.
Zurück zum Zitat Samet H (2006) Foundations of multidimensional and metric data structures. Morgan Kaufmann, BurlingtonMATH Samet H (2006) Foundations of multidimensional and metric data structures. Morgan Kaufmann, BurlingtonMATH
18.
Zurück zum Zitat Cao Y, Qi H, Zhou W, Kato J, Li K, Liu X, Gui J (2018) Binary hashing for approximate nearest neighbor search on big data: a survey. IEEE Access 6:2039–2054CrossRef Cao Y, Qi H, Zhou W, Kato J, Li K, Liu X, Gui J (2018) Binary hashing for approximate nearest neighbor search on big data: a survey. IEEE Access 6:2039–2054CrossRef
19.
Zurück zum Zitat Wang J, Liu W, Kumar S, Chang SF (2016) Learning to hash for indexing big data—A survey. Proc IEEE 104(1):34–57CrossRef Wang J, Liu W, Kumar S, Chang SF (2016) Learning to hash for indexing big data—A survey. Proc IEEE 104(1):34–57CrossRef
Metadaten
Titel
Hash-tree PCA: accelerating PCA with hash-based grouping
verfasst von
Lkhagvadorj Battulga
Sang-Hyun Lee
Aziz Nasridinov
Kwan-Hee Yoo
Publikationsdatum
11.07.2019
Verlag
Springer US
Erschienen in
The Journal of Supercomputing / Ausgabe 10/2020
Print ISSN: 0920-8542
Elektronische ISSN: 1573-0484
DOI
https://doi.org/10.1007/s11227-019-02947-x

Weitere Artikel der Ausgabe 10/2020

The Journal of Supercomputing 10/2020 Zur Ausgabe