Skip to main content

2021 | OriginalPaper | Buchkapitel

Integrated Technology for Creating Quality Parallel Corpora

verfasst von : Zhandos Zhumanov, Ualsher Tukeyev

Erschienen in: Advances in Computational Collective Intelligence

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

What determines the quality of parallel corpora? Firstly, it is determined by the quality of the translation. However, in this paper, we consider not the substantial quality of the translation, but the “technical” quality of parallel texts. Parallel texts are collected from different sources and often such texts have the following disadvantages: language mixing, font mixing, text alignment problems, the need for manual correction of parallel texts. All these problems require, firstly, their recognition, and secondly, they need to be resolved, and with large volumes of parallel texts, performing these operations manually is a very time-consuming process. Therefore, the work proposes an integrated technology for creating parallel corpora, which allows to minimize the number of manual operations. The authors present the technology as an example of a new linguistic resource - an open Kazakh-English parallel corpus.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Makhambetov, O., Makazhanov, A., Yessenbayev, Z., Matkarimov, B., Sabyrgaliyev, I., Sharafudinov, A.: Assembling the Kazakh language corpus. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1022–1031 (2013) Makhambetov, O., Makazhanov, A., Yessenbayev, Z., Matkarimov, B., Sabyrgaliyev, I., Sharafudinov, A.: Assembling the Kazakh language corpus. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1022–1031 (2013)
2.
Zurück zum Zitat Zhumanov, Z., Madiyeva, A., Rakhimova, D.: New Kazakh parallel text corpora with on-line access. In: Nguyen, N.T., Papadopoulos, G.A., Jędrzejowicz, P., Trawiński, B., Vossen, G. (eds.) Computational Collective Intelligence, pp. 501–508. Springer International Publishing, Cham (2017). https://doi.org/10.1007/978-3-319-67077-5_48CrossRef Zhumanov, Z., Madiyeva, A., Rakhimova, D.: New Kazakh parallel text corpora with on-line access. In: Nguyen, N.T., Papadopoulos, G.A., Jędrzejowicz, P., Trawiński, B., Vossen, G. (eds.) Computational Collective Intelligence, pp. 501–508. Springer International Publishing, Cham (2017). https://​doi.​org/​10.​1007/​978-3-319-67077-5_​48CrossRef
3.
Zurück zum Zitat Varga, D., Halácsy, P., Kornai, A., Nagy, V., Németh, L., Trón, V.: Parallel corpora for medium density languages. In: Amsterdam Studies in the Theory and History of Linguistic Science Series 4, pp. 247–292 (2007) Varga, D., Halácsy, P., Kornai, A., Nagy, V., Németh, L., Trón, V.: Parallel corpora for medium density languages. In: Amsterdam Studies in the Theory and History of Linguistic Science Series 4, pp. 247–292 (2007)
Metadaten
Titel
Integrated Technology for Creating Quality Parallel Corpora
verfasst von
Zhandos Zhumanov
Ualsher Tukeyev
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-030-88113-9_41