Skip to main content
Top

2024 | OriginalPaper | Chapter

3. Die Verarbeitung geschriebener Sprache

Author : Mascha Kurpicz-Briki

Published in: Mehr als ein Chatbot

Publisher: Springer Nature Switzerland

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Die enschliche Sprache aus technischer Sicht fasziniert bereits seit einiger Zeit Forscherinnen und Forscher. Die vermutlich erste Anwendung der automatischen Textverarbeitung wurde 1948 am Birkbeck College in London entwickelt und bestand aus einem Wörterbuch-Nachschlagewerk (Hancox 1996). Während Arbeiten aus dem Jahr 1948 für einige Forschungsbereiche nicht besonders aussergewöhnlich sind, so ist es ein sehr frühes Datum im Bereich der Informatik.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Footnotes
2
Wir werden in diesem Buch ein paar technischere Konzepte ansehen, aber wir werden nicht alle Details besprechen können. Falls Sie interessiert sind mehr zu erfahren, und gewillt sind, tief in die technischen Details einzutauchen, so können Sie im Anschluss an dieses Buch die Bücher (Lane et al. 2019) und (Hagiwara 2021) (beide auf Englisch) angehen.
 
3
Übersetzt durch die Autorin.
 
4
Zur Veranschaulichung nehmen wir hier nur 3 Wörter. In der Praxis wären es typischerweise viel mehr.
 
5
Grundsätzlich zählen wir in der Informatik oftmals ab 0 und nicht ab 1. Das kann einem am Anfang aber etwas ungewohnt vorkommen, deswegen starten wir hier mit der Position 1.
 
6
Im Beispiel des Vektors weiter oben waren die Zahlen innerhalb des Vektors untereinander dargestellt, und hier nun auf einer Zeile. Dies hat keine spezielle Bedeutung und dient lediglich der besseren Lesbarkeit.
 
7
Es gibt auch Bibliotheken oder Tools, welche die Data Engineers bei der Automatisierung solcher Aufgaben unterstützen können.
 
8
Übersetzt durch die Autorin.
 
9
Falls Sie sich eine mathematischere Einführung wünschen, so empfehle ich Ihnen Rashid (2017), von dem einige der Beispiele in diesem Abschnitt inspiriert sind.
 
10
Eine Matrix ist eine Tabelle von Zahlen. Zum Beispiel kann man eine Matrix erstellen, indem man mehrere Vektoren aggregiert. In so einer Matrix wäre beispielsweise jede Zeile oder Spalte der Tabelle ein Vektor.
 
11
Es könnten grundsätzlich auch Dokument-Einbettungen sein, oder Satz-Einbettungen, aber bleiben wir aktuell bei 1 Wort = 1 Vektor.
 
12
Das ist ähnlich zu den One-Hot Vektoren, die wir bereits kennen gelernt haben. Ein Vorteil der hier beschriebenen Wortvektoren ist jedoch die kleinere Dimension.
 
13
Auf Deutsch: Mann ist zu König, wie Frau zu X.
 
14
Beachten Sie, dass der exakte Wert von Vektor(«Queen»), welcher berechnet wurde, im Wörterbuch der Wortvektoren nicht vorhanden sein könnte, aber der Vektor, welcher dem berechneten Wert am nächsten ist, mit grosser Wahrscheinlichkeit die richtige Lösung sein kann.
 
15
Auf Deutsch: Wer ist die Marie Curie der Musik?
 
16
Auch würden wir vermutlich eher mit Gleitkomma-Zahlen wie 1.2 arbeiten anstelle von Ganzzahlen wie 1 oder 2 in den Beispielen.
 
17
Typisch wäre bspw. 100 bis 500 Dimensionen, abhängig vom Korpus (Textbeispiele), welche für das Training verwendet werden (Lane et al. 2019).
 
18
Manchmal wird diese Art des unüberwachten Lernens auch selbstüberwachtes Lernen (engl. Self-Supervised Learning) genannt.
 
19
Auf Deutsch: Man erkennt ein Wort anhand seiner Gesellschaft.
 
20
Für weitere Details darüber empfehle ich Lane et al. (2019, ab S. 191) (auf Englisch).
 
Metadata
Title
Die Verarbeitung geschriebener Sprache
Author
Mascha Kurpicz-Briki
Copyright Year
2024
DOI
https://doi.org/10.1007/978-3-031-58545-6_3

Premium Partner