Skip to main content

2018 | OriginalPaper | Buchkapitel

Semantic Fingerprinting: A Novel Method for Entity-Level Content Classification

verfasst von : Govind, Céline Alec, Marc Spaniol

Erschienen in: Web Engineering

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

With the constantly growing Web, there is a need for automatically analyzing, interpreting and organizing contents. A particular need is given by the management of Web contents with respect to classification systems, e.g. based on ontologies in the LOD (Linked Open Data) cloud. Research in deep learning recently has shown great progress in classifying data based on large volumes of training data. However, “targeted” and fine-grained information systems require classification methods based on a relatively small number of “representative” samples. For that purpose, we present an approach that allows a semantic exploitation of Web contents and - at the same time - computationally efficient processing based on “Semantic Fingerprinting”. To this end, we raise Web contents to the entity-level and exploit entity-related information that allows “distillation” and fine-grained classification of the Web content by its “semantic fingerprint”. In experimental results on Web contents classified in Wikipedia, we show the superiority of our approach against state-of-the-art methods.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Elberrichi, Z., Rahmoun, A., Bentaallah, M.A.: Using WordNet for text categorization. Int. Arab J. Inf. Technol. 5, 16–24 (2008) Elberrichi, Z., Rahmoun, A., Bentaallah, M.A.: Using WordNet for text categorization. Int. Arab J. Inf. Technol. 5, 16–24 (2008)
2.
Zurück zum Zitat Firth, J.: A Synopsis of Linguistic Theory, 1930–1955 (1957) Firth, J.: A Synopsis of Linguistic Theory, 1930–1955 (1957)
3.
Zurück zum Zitat Fleischman, M., Hovy, E.: Fine grained classification of named entities. In: Proceedings of COLING 2002, pp. 1–7. ACL (2002) Fleischman, M., Hovy, E.: Fine grained classification of named entities. In: Proceedings of COLING 2002, pp. 1–7. ACL (2002)
4.
Zurück zum Zitat Hoffart, J., Milchevski, D., Weikum, G.: STICS: searching with strings, things, and cats. In: Proceedings of SIGIR 2014, pp. 1247–1248. ACM (2014) Hoffart, J., Milchevski, D., Weikum, G.: STICS: searching with strings, things, and cats. In: Proceedings of SIGIR 2014, pp. 1247–1248. ACM (2014)
5.
Zurück zum Zitat Hoffart, J., et al.: YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia. Artif. Intell. 194, 28–61 (2013)MathSciNetCrossRef Hoffart, J., et al.: YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia. Artif. Intell. 194, 28–61 (2013)MathSciNetCrossRef
6.
Zurück zum Zitat Hoffart, J., et al.: Robust disambiguation of named entities in text. In: Proceedings of EMNLP 2011, pp. 782–792. ACL (2011) Hoffart, J., et al.: Robust disambiguation of named entities in text. In: Proceedings of EMNLP 2011, pp. 782–792. ACL (2011)
7.
Zurück zum Zitat Hotho, A., Staab, S., Stumme, G.: Ontologies improve text document clustering. In: Proceedings of ICDM 2003, p. 541. IEEE Computer Society (2003) Hotho, A., Staab, S., Stumme, G.: Ontologies improve text document clustering. In: Proceedings of ICDM 2003, p. 541. IEEE Computer Society (2003)
9.
Zurück zum Zitat Johnson, R., Zhang, T.: Effective Use of Word Order for Text Categorization with Convolutional Neural Networks. CoRR, abs/1412.1058 (2014) Johnson, R., Zhang, T.: Effective Use of Word Order for Text Categorization with Convolutional Neural Networks. CoRR, abs/1412.1058 (2014)
10.
Zurück zum Zitat Ling, X., Weld, D.S.: Fine-grained entity recognition. In: Proceedings of AAAI 2012, pp. 94–100. AAAI Press (2012) Ling, X., Weld, D.S.: Fine-grained entity recognition. In: Proceedings of AAAI 2012, pp. 94–100. AAAI Press (2012)
11.
Zurück zum Zitat Manning, C.D., et al.: Introduction to Information Retrieval. Cambridge University Press, Cambridge (2008)CrossRef Manning, C.D., et al.: Introduction to Information Retrieval. Cambridge University Press, Cambridge (2008)CrossRef
12.
Zurück zum Zitat Miller, G.A.: WordNet: a lexical database for English. Commun. ACM 38(11), 39–41 (1995)CrossRef Miller, G.A.: WordNet: a lexical database for English. Commun. ACM 38(11), 39–41 (1995)CrossRef
13.
Zurück zum Zitat Rahman, A., Ng, V.: Inducing fine-grained semantic classes via hierarchical and collective classification. In: Proceedings of COLING 2010, pp. 931–939. ACL (2010) Rahman, A., Ng, V.: Inducing fine-grained semantic classes via hierarchical and collective classification. In: Proceedings of COLING 2010, pp. 931–939. ACL (2010)
14.
Zurück zum Zitat Sebastiani, F.: Machine learning in automated text categorization. ACM Comput. Surv. 34(1), 1–47 (2002)CrossRef Sebastiani, F.: Machine learning in automated text categorization. ACM Comput. Surv. 34(1), 1–47 (2002)CrossRef
15.
Zurück zum Zitat Song, Y., et al.: Short text conceptualization using a probabilistic knowledgebase. In: Proceedings of IJCAI 2011, pp. 2330–2336. AAAI Press (2011) Song, Y., et al.: Short text conceptualization using a probabilistic knowledgebase. In: Proceedings of IJCAI 2011, pp. 2330–2336. AAAI Press (2011)
16.
Zurück zum Zitat Strube, M., Ponzetto, S.P.: Wikirelate! computing semantic relatedness using Wikipedia. In: Proceedings of AAAI 2006, pp. 1419–1424. AAAI Press (2006) Strube, M., Ponzetto, S.P.: Wikirelate! computing semantic relatedness using Wikipedia. In: Proceedings of AAAI 2006, pp. 1419–1424. AAAI Press (2006)
17.
Zurück zum Zitat Suchanek, F.M., Kasneci, G., Weikum, G.: YAGO: a core of semantic knowledge - unifying WordNet and Wikipedia. In: Proceedings of WWW 2007, pp. 697–706. ACM (2007) Suchanek, F.M., Kasneci, G., Weikum, G.: YAGO: a core of semantic knowledge - unifying WordNet and Wikipedia. In: Proceedings of WWW 2007, pp. 697–706. ACM (2007)
18.
Zurück zum Zitat Wang, C., et al.: Text classification with heterogeneous information network kernels. In: AAAI, pp. 2130–2136 (2016) Wang, C., et al.: Text classification with heterogeneous information network kernels. In: AAAI, pp. 2130–2136 (2016)
19.
Zurück zum Zitat Yang, Z., et al.: Hierarchical attention networks for document classification. In: Proceedings of NAACL HLT 2016, pp. 1480–1489 (2016) Yang, Z., et al.: Hierarchical attention networks for document classification. In: Proceedings of NAACL HLT 2016, pp. 1480–1489 (2016)
20.
Zurück zum Zitat Yosef, M.A., et al. HYENA: Hierarchical type classification for entity names. In: Proceedings of COLING 2012, pp. 1361–1370. ACL (2012) Yosef, M.A., et al. HYENA: Hierarchical type classification for entity names. In: Proceedings of COLING 2012, pp. 1361–1370. ACL (2012)
21.
Zurück zum Zitat Yosef, M.A., et al.: HYENA-live: fine-grained online entity type classification from natural-language text. In: Proceedings of ACL 2013, pp. 133–138. ACL (2013) Yosef, M.A., et al.: HYENA-live: fine-grained online entity type classification from natural-language text. In: Proceedings of ACL 2013, pp. 133–138. ACL (2013)
Metadaten
Titel
Semantic Fingerprinting: A Novel Method for Entity-Level Content Classification
verfasst von
Govind
Céline Alec
Marc Spaniol
Copyright-Jahr
2018
DOI
https://doi.org/10.1007/978-3-319-91662-0_21