Skip to main content

2021 | OriginalPaper | Buchkapitel

Evaluation of Text Clustering Methods and Their Dataspace Embeddings: An Exploration

verfasst von : Alain Lelu, Martine Cadot

Erschienen in: Data Analysis and Rationality in a Complex World

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Fair evaluation of text clustering methods needs to clarify the relations between (1) preprocessing, resulting in raw term occurrence vectors, (2) data transformation, and (3) method in the strict sense. We have tried to empirically compare a dozen well-known methods and variants in a protocol crossing three contrasted open-access corpora in a few tens dataspaces with different metrics and/or matrix decompositions. We compared the resulting clusterings to their supposed “ground-truth” classes by means of four usual indices. The results show both a confirmation of well-established implicit combinations and good performances of unexpected ones, mostly in spectral or kernel dataspaces. The rich material resulting from these some 600 runs includes a wealth of intriguing facts, which needs further research on the specificities of text corpora in relation to methods and dataspaces.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Apté, C., Damerau, F., Weiss, S.M.: Automated learning of decision rules for text categorization. ACM Trans. Inf. Syst. 12(3), 233–251 (1994)CrossRef Apté, C., Damerau, F., Weiss, S.M.: Automated learning of decision rules for text categorization. ACM Trans. Inf. Syst. 12(3), 233–251 (1994)CrossRef
Zurück zum Zitat Benzécri, J.: L’analyse des correspondances. l’analyse des données, vol. 2, Dunod. Paris (1973) Benzécri, J.: L’analyse des correspondances. l’analyse des données, vol. 2, Dunod. Paris (1973)
Zurück zum Zitat Girolami, M.: Mercer kernel-based clustering in feature space. IEEE T Neural Networ. 13(3), 780–784 (2002)CrossRef Girolami, M.: Mercer kernel-based clustering in feature space. IEEE T Neural Networ. 13(3), 780–784 (2002)CrossRef
Zurück zum Zitat Legendre, P., Gallagher, E.D.: Ecologically meaningful transformations for ordination of species data. Oecologia 129(2), 271–280 (2001)CrossRef Legendre, P., Gallagher, E.D.: Ecologically meaningful transformations for ordination of species data. Oecologia 129(2), 271–280 (2001)CrossRef
Zurück zum Zitat Lewis, D.D., Yang, Y., Rose, T.G., Li, F.: Rcv1: a new benchmark collection for text categorization research. J. Mach. Learn. Res. 5, 361–397 (2004) Lewis, D.D., Yang, Y., Rose, T.G., Li, F.: Rcv1: a new benchmark collection for text categorization research. J. Mach. Learn. Res. 5, 361–397 (2004)
Zurück zum Zitat Murtagh, F.: Complexities of hierarchic clustering algorithms: state of the art. Comput. Stat. Quart. 1(2), 101–113 (1984)MATH Murtagh, F.: Complexities of hierarchic clustering algorithms: state of the art. Comput. Stat. Quart. 1(2), 101–113 (1984)MATH
Zurück zum Zitat Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M., Gatford, M.: Okapi at TREC-3. In: Proceedings of the Third Text REtrieval Conference (TREC). Gaithersburg, USA (1994) Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M., Gatford, M.: Okapi at TREC-3. In: Proceedings of the Third Text REtrieval Conference (TREC). Gaithersburg, USA (1994)
Zurück zum Zitat Van Mechelen, I., Boulesteix, A.-L., Dangl, R., Dean, N., Guyon, I., Hennig, C., Leisch, F., Steinley, D. Benchmarking in cluster analysis: a white paper. arXiv preprint arXiv:1809.10496. Accessed 6 Nov 2020 (2018) Van Mechelen, I., Boulesteix, A.-L., Dangl, R., Dean, N., Guyon, I., Hennig, C., Leisch, F., Steinley, D. Benchmarking in cluster analysis: a white paper. arXiv preprint arXiv:​1809.​10496. Accessed 6 Nov 2020 (2018)
Zurück zum Zitat Zitt, M., Lelu, A., Cadot, M., Cabanac, G.: Bibliometric delineation of scientific fields. In: Glänzel, W., Moed, H.F., Schmoch, U., Thelwall, M. (eds.) Handbook of Science and Technology Indicators, Springer International Publishing (2018) Zitt, M., Lelu, A., Cadot, M., Cabanac, G.: Bibliometric delineation of scientific fields. In: Glänzel, W., Moed, H.F., Schmoch, U., Thelwall, M. (eds.) Handbook of Science and Technology Indicators, Springer International Publishing (2018)
Metadaten
Titel
Evaluation of Text Clustering Methods and Their Dataspace Embeddings: An Exploration
verfasst von
Alain Lelu
Martine Cadot
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-030-60104-1_15

Premium Partner