Skip to main content

2017 | OriginalPaper | Buchkapitel

Ultrametricity of Dissimilarity Spaces and Its Significance for Data Mining

verfasst von : Dan A. Simovici, Rosanne Vetro, Kaixun Hua

Erschienen in: Advances in Knowledge Discovery and Management

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We introduce a measure of ultrametricity for dissimilarity spaces and examine transformations of dissimilarities that impact this measure. Then, we study the influence of ultrametricity on the behavior of two classes of data mining algorithms (kNN classification and PAM clustering) applied on dissimilarity spaces. We show that there is an inverse variation between ultrametricity and performance of classifiers. For clustering, increased ultrametricity generate clusterings with better separation. Lowering ultrametricity produces more compact clusters.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Amice, Y. (1975). Les nombres p-adiques. Paris: Presses Universitaires de France.MATH Amice, Y. (1975). Les nombres p-adiques. Paris: Presses Universitaires de France.MATH
Zurück zum Zitat Barthélemy, J.-P., Brucker, F., & Osswald, C. (2004). Combinatorial optimization and hierarchical classifications. 4OR, 2(3), 179–219.MathSciNetCrossRefMATH Barthélemy, J.-P., Brucker, F., & Osswald, C. (2004). Combinatorial optimization and hierarchical classifications. 4OR, 2(3), 179–219.MathSciNetCrossRefMATH
Zurück zum Zitat Bertrand, P., & Janowitz, M. F. (2002). Pyramids and weak hierarchies in the ordinal model for clustering. Discrete Applied Mathematics, 122(1–3), 55–81.MathSciNetCrossRefMATH Bertrand, P., & Janowitz, M. F. (2002). Pyramids and weak hierarchies in the ordinal model for clustering. Discrete Applied Mathematics, 122(1–3), 55–81.MathSciNetCrossRefMATH
Zurück zum Zitat Contreras, P., & Murtagh, F. (2012). Fast, linear time hierarchical clustering using the baire metric. Journal of Classification, 29(2), 118–143.MathSciNetCrossRefMATH Contreras, P., & Murtagh, F. (2012). Fast, linear time hierarchical clustering using the baire metric. Journal of Classification, 29(2), 118–143.MathSciNetCrossRefMATH
Zurück zum Zitat Deza, M. M., & Laurent, M. (1997). Geometry of cuts and metrics. Heidelberg: Springer.CrossRefMATH Deza, M. M., & Laurent, M. (1997). Geometry of cuts and metrics. Heidelberg: Springer.CrossRefMATH
Zurück zum Zitat Di Summa, M., Pritchard, D., & Sanità, L. (2015). Finding the closest ultrametric. Discrete Applied Mathematics, 180, 70–80.MathSciNetCrossRefMATH Di Summa, M., Pritchard, D., & Sanità, L. (2015). Finding the closest ultrametric. Discrete Applied Mathematics, 180, 70–80.MathSciNetCrossRefMATH
Zurück zum Zitat Diatta, J., & Fichet, B. (1998). Quasi-ultrametrics and their 2-ball hypergraphs. Discrete Mathematics, 192(1–3), 87–102.MathSciNetCrossRefMATH Diatta, J., & Fichet, B. (1998). Quasi-ultrametrics and their 2-ball hypergraphs. Discrete Mathematics, 192(1–3), 87–102.MathSciNetCrossRefMATH
Zurück zum Zitat Gordon, A. D. (1981). Classification. London: Chapman and Hall.MATH Gordon, A. D. (1981). Classification. London: Chapman and Hall.MATH
Zurück zum Zitat Gordon, A. D. (1987). A review of hierarchical classification. Journal of the Royal Statistical Society, Series (A), 150(2), 119–137.MathSciNetCrossRefMATH Gordon, A. D. (1987). A review of hierarchical classification. Journal of the Royal Statistical Society, Series (A), 150(2), 119–137.MathSciNetCrossRefMATH
Zurück zum Zitat Jardine, N., & Sibson, R. (1971). Mathematical taxonomy. New York: Wiley.MATH Jardine, N., & Sibson, R. (1971). Mathematical taxonomy. New York: Wiley.MATH
Zurück zum Zitat Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. New York: Wiley.CrossRefMATH Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. New York: Wiley.CrossRefMATH
Zurück zum Zitat Kimura, M. (1983). The neutral theory of molecular evolution. Cambridge: Cambridge University Press.CrossRef Kimura, M. (1983). The neutral theory of molecular evolution. Cambridge: Cambridge University Press.CrossRef
Zurück zum Zitat Leclerc, B. (1985). La comparaison des hiérarchies: indices et métriques. Mathématiques et sciences humaines, 92, 5–40.MATH Leclerc, B. (1985). La comparaison des hiérarchies: indices et métriques. Mathématiques et sciences humaines, 92, 5–40.MATH
Zurück zum Zitat Lerman, I. C. (1981). Classification et Analyse Ordinale des Données. Paris: Dunod.MATH Lerman, I. C. (1981). Classification et Analyse Ordinale des Données. Paris: Dunod.MATH
Zurück zum Zitat Liu, Y., Li, Z., Xiong, H., Gao, X., & Wu, J. (2010). Understanding of internal clustering validation measures. In 2010 IEEE 10th international conference on data mining (pp. 911–916). IEEE. Liu, Y., Li, Z., Xiong, H., Gao, X., & Wu, J. (2010). Understanding of internal clustering validation measures. In 2010 IEEE 10th international conference on data mining (pp. 911–916). IEEE.
Zurück zum Zitat Manning, C. D., Raghwan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press.CrossRefMATH Manning, C. D., Raghwan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press.CrossRefMATH
Zurück zum Zitat Maulik, U., & Bandyopadhyay, S. (2002). Performance evaluation of some clustering algorithms and validity indices. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(12), 1650–1654.CrossRef Maulik, U., & Bandyopadhyay, S. (2002). Performance evaluation of some clustering algorithms and validity indices. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(12), 1650–1654.CrossRef
Zurück zum Zitat Murtagh, F., Downs, G., & Contreras, P. (2008). Hierarchical clustering of massive, high dimensional data sets by exploiting ultrametric embedding. SIAM Journal on Scientific Computing, 30(2), 707–730.MathSciNetCrossRefMATH Murtagh, F., Downs, G., & Contreras, P. (2008). Hierarchical clustering of massive, high dimensional data sets by exploiting ultrametric embedding. SIAM Journal on Scientific Computing, 30(2), 707–730.MathSciNetCrossRefMATH
Zurück zum Zitat Ninio, J. (1983). Molecular approaches to evolution. Princeton: Princeton University.CrossRef Ninio, J. (1983). Molecular approaches to evolution. Princeton: Princeton University.CrossRef
Zurück zum Zitat Rammal, R., Angles d’Auriac, C., & Doucot, D. (1985). On the degree of ultrametricity. Le Journal de Physique - Letteres, 45, 945–952.CrossRef Rammal, R., Angles d’Auriac, C., & Doucot, D. (1985). On the degree of ultrametricity. Le Journal de Physique - Letteres, 45, 945–952.CrossRef
Zurück zum Zitat Rammal, R., Toulouse, G., & Virasoro, M. A. (1986). Ultrametricity for physicists. Reviews of Modern Physics, 58, 765–788.MathSciNetCrossRef Rammal, R., Toulouse, G., & Virasoro, M. A. (1986). Ultrametricity for physicists. Reviews of Modern Physics, 58, 765–788.MathSciNetCrossRef
Zurück zum Zitat Schikhof, W. H. (1984). Ultrametric calculus. Cambridge: Cambridge University Press.MATH Schikhof, W. H. (1984). Ultrametric calculus. Cambridge: Cambridge University Press.MATH
Zurück zum Zitat Simovici, D. A., & Djeraba, C. (2014). Mathematical tools for data mining (2nd ed.). London: Springer. Simovici, D. A., & Djeraba, C. (2014). Mathematical tools for data mining (2nd ed.). London: Springer.
Zurück zum Zitat Tang, P. N., Steinbach, M., & Kumar, V. (2005). Introduction to data mining. Reading: Addison-Wesley. Tang, P. N., Steinbach, M., & Kumar, V. (2005). Introduction to data mining. Reading: Addison-Wesley.
Zurück zum Zitat Xiong, H., Wu, J., & Chen, J. (2009). K-means clustering versus validation measures: a data-distribution perspective. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 39(2), 318–331.CrossRef Xiong, H., Wu, J., & Chen, J. (2009). K-means clustering versus validation measures: a data-distribution perspective. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 39(2), 318–331.CrossRef
Zurück zum Zitat Zhao, Y., & Karypis, G. (2002). Evaluation of hierarchical clustering algorithms for document datasets. In Proceedings of the Eleventh International Conference on Information and Knowledge Management (pp. 515–524). ACM. Zhao, Y., & Karypis, G. (2002). Evaluation of hierarchical clustering algorithms for document datasets. In Proceedings of the Eleventh International Conference on Information and Knowledge Management (pp. 515–524). ACM.
Metadaten
Titel
Ultrametricity of Dissimilarity Spaces and Its Significance for Data Mining
verfasst von
Dan A. Simovici
Rosanne Vetro
Kaixun Hua
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-45763-5_8

Premium Partner