Skip to main content
Erschienen in: Cluster Computing 6/2019

13.03.2018

English corpus and literary analysis based on statistical language model

verfasst von: Bo Huang, Xijun Lan

Erschienen in: Cluster Computing | Sonderheft 6/2019

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

In this paper, the cross-language retrieval model based on statistical language model, cross-lingual text categorization method and cross-lingual text clustering method are studied systematically and deeply. Without any help of cross-lingual resources such as machine translation and bilingual dictionaries, this paper can solve the many-to-many problem of word translation in CLIR and solve the problem of unregistered words partially. Under a unified framework, a series of topics are extracted from bilingual parallel corpora to form the thematic space for each language. Thematic space of each language exists independently, and the bilingual subject space is established through the bilingual semantic correspondence. The bilingual subject space reflects the semantic correspondence between documents and documents, words and words. It reveals the inherent structure and internal relations among languages and languages.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Otegi, A., Arregi, X., Ansa, O., et al.: Using knowledge-based relatedness for information retrieval. Knowl. Inf. Syst. 44(3), 689–718 (2015)CrossRef Otegi, A., Arregi, X., Ansa, O., et al.: Using knowledge-based relatedness for information retrieval. Knowl. Inf. Syst. 44(3), 689–718 (2015)CrossRef
2.
Zurück zum Zitat Rahimi, R., Shakery, A., King, I.: Multilingual information retrieval in the language modeling framework. Inf. Retr. J. 18(3), 246–281 (2015)CrossRef Rahimi, R., Shakery, A., King, I.: Multilingual information retrieval in the language modeling framework. Inf. Retr. J. 18(3), 246–281 (2015)CrossRef
3.
Zurück zum Zitat Kim, S.: Youngjoong Ko, Oard D W. Combining lexical and statistical translation evidence for cross-language information retrieval. J. Assoc Inf. Sci. Technol. 66(1), 23–39 (2015)CrossRef Kim, S.: Youngjoong Ko, Oard D W. Combining lexical and statistical translation evidence for cross-language information retrieval. J. Assoc Inf. Sci. Technol. 66(1), 23–39 (2015)CrossRef
4.
Zurück zum Zitat Rahimi, R., Shakery, A., King, I.: Extracting translations from comparable corpora for Cross-Language Information Retrieval using the language modeling framework. Inf. Process. Manag. 52(2), 299–318 (2016)CrossRef Rahimi, R., Shakery, A., King, I.: Extracting translations from comparable corpora for Cross-Language Information Retrieval using the language modeling framework. Inf. Process. Manag. 52(2), 299–318 (2016)CrossRef
5.
Zurück zum Zitat Mamchich, A.A.: Models and algorithms of information retrieval in a multilingual environment on the basis of thematic and dynamic text corpora. Cybern. Inf. Technol. 16(1), 99–115 (2016)MathSciNet Mamchich, A.A.: Models and algorithms of information retrieval in a multilingual environment on the basis of thematic and dynamic text corpora. Cybern. Inf. Technol. 16(1), 99–115 (2016)MathSciNet
6.
Zurück zum Zitat Narula, G.S., Jain, V.: Improving statistical multimedia information retrieval model by using ontology. Int. J. Comput. Appl. 94(2), 27–30 (2017) Narula, G.S., Jain, V.: Improving statistical multimedia information retrieval model by using ontology. Int. J. Comput. Appl. 94(2), 27–30 (2017)
7.
Zurück zum Zitat Lupu, M.: Information retrieval, machine learning, and natural language processing for intellectual property information. World Pat. Inf. 49, A1–A3 (2017)CrossRef Lupu, M.: Information retrieval, machine learning, and natural language processing for intellectual property information. World Pat. Inf. 49, A1–A3 (2017)CrossRef
Metadaten
Titel
English corpus and literary analysis based on statistical language model
verfasst von
Bo Huang
Xijun Lan
Publikationsdatum
13.03.2018
Verlag
Springer US
Erschienen in
Cluster Computing / Ausgabe Sonderheft 6/2019
Print ISSN: 1386-7857
Elektronische ISSN: 1573-7543
DOI
https://doi.org/10.1007/s10586-018-2454-y

Weitere Artikel der Sonderheft 6/2019

Cluster Computing 6/2019 Zur Ausgabe