Skip to main content

2015 | OriginalPaper | Buchkapitel

Topic Optimization Method Based on Pointwise Mutual Information

verfasst von : Yuxin Ding, Shengli Yan

Erschienen in: Neural Information Processing

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Latent Dirichlet Allocation (LDA) model is biased to draw high-frequency words to describe topics. This affects the accuracy of the representation of topics. To solve this issue, we use point-wise mutual information (PMI) to estimate the internal correlation between words and documents and propose the LDA model based on PMI. The proposed model draws words in a topic according to the mutual information. We also propose three measures to evaluate the quality of topics, which are readability, consistency of topics, and similarity of topics. The experimental results show that the quality of the topics generated by the proposed topic model is better than that of the LDA model.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Thomas, K.L., Peter, W.F., Darrell, L.: An introduction to latent semantic analysis. Discourse Process 25, 259–284 (1998)CrossRef Thomas, K.L., Peter, W.F., Darrell, L.: An introduction to latent semantic analysis. Discourse Process 25, 259–284 (1998)CrossRef
2.
Zurück zum Zitat Hofmann, T.: Probabilistic latent semantic indexing. In: Special Interest Group on Information Retrieval, pp. 50–57, Berkeley, CA, USA (1999) Hofmann, T.: Probabilistic latent semantic indexing. In: Special Interest Group on Information Retrieval, pp. 50–57, Berkeley, CA, USA (1999)
3.
Zurück zum Zitat Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent Dirichlet allocation. J. Mach. Learn. Res. 3(1), 993–1022 (2003)MATH Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent Dirichlet allocation. J. Mach. Learn. Res. 3(1), 993–1022 (2003)MATH
4.
Zurück zum Zitat Ding, Y., Meng, X., Chai, G., Tang, Y.: User identification for instant messages. In: Lu, B.-L., Zhang, L., Kwok, J. (eds.) ICONIP 2011, Part III. LNCS, vol. 7064, pp. 113–120. Springer, Heidelberg (2011)CrossRef Ding, Y., Meng, X., Chai, G., Tang, Y.: User identification for instant messages. In: Lu, B.-L., Zhang, L., Kwok, J. (eds.) ICONIP 2011, Part III. LNCS, vol. 7064, pp. 113–120. Springer, Heidelberg (2011)CrossRef
5.
Zurück zum Zitat Griffiths, T.L., Steyvers, M.: Finding scientific topics. Proc. Natl. Acad. Sci. 101, 5228–5235 (2004)CrossRef Griffiths, T.L., Steyvers, M.: Finding scientific topics. Proc. Natl. Acad. Sci. 101, 5228–5235 (2004)CrossRef
6.
Zurück zum Zitat Michal, R.Z., Griffiths, T., Steyvers, M., et al.: The author-topic model for authors and documents. In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, pp. 487–494 (2004) Michal, R.Z., Griffiths, T., Steyvers, M., et al.: The author-topic model for authors and documents. In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, pp. 487–494 (2004)
7.
Zurück zum Zitat Zhao, W.X., Jiang, J., Weng, J., He, J., Lim, E.-P., Yan, H., Li, X.: Comparing twitter and traditional media using topic models. In: Clough, P., Foley, C., Gurrin, C., Jones, G.J., Kraaij, W., Lee, H., Mudoch, V. (eds.) ECIR 2011. LNCS, vol. 6611, pp. 338–349. Springer, Heidelberg (2011)CrossRef Zhao, W.X., Jiang, J., Weng, J., He, J., Lim, E.-P., Yan, H., Li, X.: Comparing twitter and traditional media using topic models. In: Clough, P., Foley, C., Gurrin, C., Jones, G.J., Kraaij, W., Lee, H., Mudoch, V. (eds.) ECIR 2011. LNCS, vol. 6611, pp. 338–349. Springer, Heidelberg (2011)CrossRef
8.
Zurück zum Zitat Blei, D.M., Lafferty, J.D.: Correlated topic models.. In: International Conference on Machine Learning, pp. 113–120 (2006) Blei, D.M., Lafferty, J.D.: Correlated topic models.. In: International Conference on Machine Learning, pp. 113–120 (2006)
9.
Zurück zum Zitat Canini, K.R., Shi, L., Griffiths, T.L.: Online inference of topics with latent Dirichlet allocation. In: International Conference on Artificial Intelligence and Statistics, pp. 41–48, Clearwater Beach, Florida, USA (2009) Canini, K.R., Shi, L., Griffiths, T.L.: Online inference of topics with latent Dirichlet allocation. In: International Conference on Artificial Intelligence and Statistics, pp. 41–48, Clearwater Beach, Florida, USA (2009)
10.
Zurück zum Zitat David, M., Wallach, H.M., Talley, E., et al.: Optimizing semantic coherence in topic models. In: Empirical Methods in Natural Language Processing, pp. 262–272 (2011) David, M., Wallach, H.M., Talley, E., et al.: Optimizing semantic coherence in topic models. In: Empirical Methods in Natural Language Processing, pp. 262–272 (2011)
11.
Zurück zum Zitat Blei, D.M., Jon, D.: McAuliffe. supervised topic models. In: NIPS (2007) Blei, D.M., Jon, D.: McAuliffe. supervised topic models. In: NIPS (2007)
Metadaten
Titel
Topic Optimization Method Based on Pointwise Mutual Information
verfasst von
Yuxin Ding
Shengli Yan
Copyright-Jahr
2015
DOI
https://doi.org/10.1007/978-3-319-26555-1_17