Skip to main content

2017 | OriginalPaper | Buchkapitel

Information-Theoretic Non-redundant Subspace Clustering

verfasst von : Nina Hubig, Claudia Plant

Erschienen in: Advances in Knowledge Discovery and Data Mining

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

A comprehensive understanding of complex data requires multiple different views. Subspace clustering methods open up multiple interesting views since they support data objects to be assigned to different clusters in different subspaces. Conventional subspace clustering methods yield many redundant clusters or control redundancy by difficult to set parameters. In this paper, we employ concepts from information theory to naturally trade-off the two major properties of a subspace cluster: The quality of a cluster and its redundancy with respect to the other clusters. Our novel algorithm NORD (for NOn-ReDundant) efficiently discovers the truly relevant clusters in complex data sets without requiring any kind of threshold on their redundancy. NORD also exploits the concept of microclusters to support the detection of arbitrarily-shaped clusters. Our comprehensive experimental evaluation shows the effectiveness and efficiency of NORD on both synthetic and real-world data sets and provides a meaningful visualization of both the quality and the degree of the redundancy of the clustering result on first glance.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Agrawal, R., Gehrke, J., Gunopulos, D., Raghavan, P.: Automatic subspace clustering of high dimensional data for data mining applications. In SIGMOD Conference, pp. 94–105 (1998) Agrawal, R., Gehrke, J., Gunopulos, D., Raghavan, P.: Automatic subspace clustering of high dimensional data for data mining applications. In SIGMOD Conference, pp. 94–105 (1998)
2.
Zurück zum Zitat Assent, I., Krieger, R., Müller, E., Seidl, T.: INSCY: indexing subspace clusters with in-process-removal of redundancy. In: ICDM Conference, pp. 719–724 (2008) Assent, I., Krieger, R., Müller, E., Seidl, T.: INSCY: indexing subspace clusters with in-process-removal of redundancy. In: ICDM Conference, pp. 719–724 (2008)
3.
Zurück zum Zitat Bache, K., Lichman, M.: UCI machine learning repository (2013) Bache, K., Lichman, M.: UCI machine learning repository (2013)
4.
Zurück zum Zitat Baumgartner, C., Plant, C., Kailing, K., Kriegel, H.-P., Kröger, P.: Subspace selection for clustering high-dimensional data. In: ICDM, pp. 11–18 (2004) Baumgartner, C., Plant, C., Kailing, K., Kriegel, H.-P., Kröger, P.: Subspace selection for clustering high-dimensional data. In: ICDM, pp. 11–18 (2004)
5.
Zurück zum Zitat Costeira, J., Kanade, T.: A multibody factorization method for independently moving objects. Int. J. Comput. Vis. 29(3), 159–179 (1998)CrossRef Costeira, J., Kanade, T.: A multibody factorization method for independently moving objects. Int. J. Comput. Vis. 29(3), 159–179 (1998)CrossRef
6.
Zurück zum Zitat Kanatani, K.: Motion segmentation by subspace separation and model selection. In: IEEE ICCV, vol. 2, pp. 586–591 (2001) Kanatani, K.: Motion segmentation by subspace separation and model selection. In: IEEE ICCV, vol. 2, pp. 586–591 (2001)
7.
Zurück zum Zitat Kannan, R., Vempala, S.: Spectral algorithms. Found. Trends Theor. Comput. Sci. 4(3&4), 157–288 (2009)MathSciNetMATH Kannan, R., Vempala, S.: Spectral algorithms. Found. Trends Theor. Comput. Sci. 4(3&4), 157–288 (2009)MathSciNetMATH
8.
Zurück zum Zitat Meila, M.: Comparing clusterings: an axiomatic view. In: ICML, pp. 577–584 (2005) Meila, M.: Comparing clusterings: an axiomatic view. In: ICML, pp. 577–584 (2005)
9.
Zurück zum Zitat Moise, G., Sander, J.: Finding non-redundant, statistically significant regions in high dimensional data: a novel approach to projected and subspace clustering. In: KDD Conference, pp. 533–541 (2008) Moise, G., Sander, J.: Finding non-redundant, statistically significant regions in high dimensional data: a novel approach to projected and subspace clustering. In: KDD Conference, pp. 533–541 (2008)
10.
Zurück zum Zitat Müller, E., Assent, I., Günnemann, S., Krieger, R., Seidl, T.: Relevant subspace clustering: mining the most interesting non-redundant concepts in high dimensional data. In: ICDM, pp. 377–386 (2009) Müller, E., Assent, I., Günnemann, S., Krieger, R., Seidl, T.: Relevant subspace clustering: mining the most interesting non-redundant concepts in high dimensional data. In: ICDM, pp. 377–386 (2009)
11.
Zurück zum Zitat Müller, E., Günnemann, S., Assent, I., Seidl, T.: Evaluating clustering in subspace projections of high dimensional data. PVLDB 2(1), 1270–1281 (2009) Müller, E., Günnemann, S., Assent, I., Seidl, T.: Evaluating clustering in subspace projections of high dimensional data. PVLDB 2(1), 1270–1281 (2009)
12.
Zurück zum Zitat Müller, E., Keller, F., Blanc, S., Böhm, K.: OutRules: a framework for outlier descriptions in multiple context spaces. In: Flach, P.A., De Bie, T., Cristianini, N. (eds.) ECML PKDD 2012. LNCS (LNAI), vol. 7524, pp. 828–832. Springer, Heidelberg (2012). doi:10.1007/978-3-642-33486-3_57 CrossRef Müller, E., Keller, F., Blanc, S., Böhm, K.: OutRules: a framework for outlier descriptions in multiple context spaces. In: Flach, P.A., De Bie, T., Cristianini, N. (eds.) ECML PKDD 2012. LNCS (LNAI), vol. 7524, pp. 828–832. Springer, Heidelberg (2012). doi:10.​1007/​978-3-642-33486-3_​57 CrossRef
13.
Zurück zum Zitat Rissanen, J.: An introduction to the MDL principle. Technical report, Helsinkin Institute for Information Technology (2005) Rissanen, J.: An introduction to the MDL principle. Technical report, Helsinkin Institute for Information Technology (2005)
14.
Zurück zum Zitat Rissanen, J.: Information and Complexity in Statistical Modeling. Springer, New York (2007)MATH Rissanen, J.: Information and Complexity in Statistical Modeling. Springer, New York (2007)MATH
15.
Zurück zum Zitat Tung, A.K., Xu, X., Ooi, B.C.: CURLER: finding and visualizing nonlinear correlation clusters. In: SIGMOD, pp. 467–478 (2005) Tung, A.K., Xu, X., Ooi, B.C.: CURLER: finding and visualizing nonlinear correlation clusters. In: SIGMOD, pp. 467–478 (2005)
16.
Zurück zum Zitat Yang, A.Y., Wright, J., Ma, Y., Sastry, S.S.: Unsupervised segmentation of natural images via lossy data compression. Comput. Vis. Image Underst. 110(2), 212–225 (2008)CrossRef Yang, A.Y., Wright, J., Ma, Y., Sastry, S.S.: Unsupervised segmentation of natural images via lossy data compression. Comput. Vis. Image Underst. 110(2), 212–225 (2008)CrossRef
17.
Zurück zum Zitat Zhang, A., Fawaz, N., Ioannidis, S., Montanari, A.: Guess who rated this movie: identifying users through subspace clustering (2012). CoRR, abs/1208.1544 Zhang, A., Fawaz, N., Ioannidis, S., Montanari, A.: Guess who rated this movie: identifying users through subspace clustering (2012). CoRR, abs/1208.1544
Metadaten
Titel
Information-Theoretic Non-redundant Subspace Clustering
verfasst von
Nina Hubig
Claudia Plant
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-57454-7_16