Skip to main content

2014 | OriginalPaper | Buchkapitel

3. Encoding and Annotation Schemes

verfasst von : Pierre M. Nugues

Erschienen in: Language Processing with Perl and Prolog

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

At the most basic level, computers only understand binary digits and numbers. Corpora as well as any computerized texts have to be converted into a digital format to be read by machines. From their American early history, computers inherited encoding formats designed for the English language. The most famous one is the American Standard Code for Information Interchange (ASCII). Although well established for English, the adaptation of ASCII to other languages led to clunky evolutions and many variants. It ended (temporarily?) with Unicode, a universal scheme compatible with ASCII and intended to cover all the scripts of the world.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Davis, M., & Whistler, K. (2009). Unicode collation algorithm. Unicode technical standard 10, The Unicode Consortium. Version 5.2. Davis, M., & Whistler, K. (2009). Unicode collation algorithm. Unicode technical standard 10, The Unicode Consortium. Version 5.2.
Zurück zum Zitat Knuth, D. E. (1986). The TeXbook. Reading: Addison-Wesley. Knuth, D. E. (1986). The TeXbook. Reading: Addison-Wesley.
Zurück zum Zitat Microsoft. (2004). Microsoft office word 2003 rich text format (RTF) specification. Microsoft. RTF Version 1.8. Microsoft. (2004). Microsoft office word 2003 rich text format (RTF) specification. Microsoft. RTF Version 1.8.
Zurück zum Zitat Ray, E. T. (2003). Learning XML (2nd ed.). Sebastopol: O’Reilly Media. Ray, E. T. (2003). Learning XML (2nd ed.). Sebastopol: O’Reilly Media.
Zurück zum Zitat The Unicode Consortium. (2012). The unicode standard, version 6.1 – core specification. Mountain View: Unicode Consortium. The Unicode Consortium. (2012). The unicode standard, version 6.1 – core specification. Mountain View: Unicode Consortium.
Metadaten
Titel
Encoding and Annotation Schemes
verfasst von
Pierre M. Nugues
Copyright-Jahr
2014
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-642-41464-0_3

Premium Partner