Skip to main content

2019 | OriginalPaper | Buchkapitel

17. Die Kumpel des Textbergbaus

verfasst von : Wolf Zimmer

Erschienen in: Ansturm der Algorithmen

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Eine maschinelle „Erschließung“ digitalisierter Texte ist tatsächlich nur möglich, wenn der Text berechenbare Strukturen aufweist. Berechenbarkeit ist ja gerade das Wesen der universellen Turing-Maschine, dem Vorbild unseres heutigen Computers. Um Texte auf dem Computer verarbeiten zu können, müssen sie daher zunächst in Zeichen umgewandelt werden, mit denen der Computer umgehen kann.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Als Phrase bezeichnet man in der Linguistik eine syntaktische Einheit, die abgeschlossen, also „syntaktisch gesättigt“ ist, im Gegensatz zu Einheiten, denen noch Ergänzungen fehlen.
 
2
Die Dirichletverteilung, benannt nach dem deutschen Mathematiker Peter Gustav Lejeune Dirichlet (13.02.1805–05.05.1859), ist eines der grundlegenden Funktionen zur Modellierung von proportionalen Daten, wie beispielsweise die Mischung von Worten oder Wortfolgen in einem Text. Sie ist eine Familie von stetigen und mehreren Variablen abhängige Wahrscheinlichkeitsverteilungen. Ihre Dichtefunktion gibt die Wahrscheinlichkeit von K verschiedenen, exklusiven Ereignissen an, wenn jedes Ereignis Ki genau (ki-1) mal beobachtet wurde. Die so genannte multinomiale Verteilung, eine Wahrscheinlichkeitsverteilung mit mehreren möglichen Ergebnissen, gibt die Wahrscheinlichkeiten P1, …, Pk für k unterschiedliche Ereignisse an, also z. B. wie wahrscheinlich es ist, dass in einer Zufallsstichprobe von 10 Wahlberechtigten 5 CDU wählen, 5 SPD wählen und keiner die FDP wählt. Im Gegensatz dazu gibt die Dirichletverteilung an, wie wahrscheinlich eine solche Verteilung auftritt.
 
Literatur
1.
Zurück zum Zitat Whorf B (1963) Sprache-Denken-Wirklichkeit. Rowohlt Verlag, Hamburg, S. 12 Whorf B (1963) Sprache-Denken-Wirklichkeit. Rowohlt Verlag, Hamburg, S. 12
2.
Zurück zum Zitat Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. W3L Verlag, Dortmund, S. 1 Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. W3L Verlag, Dortmund, S. 1
3.
Zurück zum Zitat Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. S. 1 Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. S. 1
5.
Zurück zum Zitat Münchrath J (1998) Philosophische Dimensionen einer neuen Kulturtechnik. Verlag Dr. Kovac, Hamburg, S. 191 Münchrath J (1998) Philosophische Dimensionen einer neuen Kulturtechnik. Verlag Dr. Kovac, Hamburg, S. 191
6.
Zurück zum Zitat Frege G: Briefe an Philip Jourdain. Zit. nach: Künne W (2010) Die Philosophische Logik Gottlob Freges, Klostermann Verlag, Frankfurt a. M., S. 590 Frege G: Briefe an Philip Jourdain. Zit. nach: Künne W (2010) Die Philosophische Logik Gottlob Freges, Klostermann Verlag, Frankfurt a. M., S. 590
7.
Zurück zum Zitat Putnam H (1991) Repräsentation und Realität, Suhrkamp Verlag, Frankfurt a. M., S. 159. Putnam H (1991) Repräsentation und Realität, Suhrkamp Verlag, Frankfurt a. M., S. 159.
8.
Zurück zum Zitat Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter Verlag, Zürich, S. 16 Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter Verlag, Zürich, S. 16
10.
Zurück zum Zitat Manning C D, Schütze H (2003) Foundations of Statistical Natural Language Processing, MIT Press, Cambridge MAMATH Manning C D, Schütze H (2003) Foundations of Statistical Natural Language Processing, MIT Press, Cambridge MAMATH
11.
Zurück zum Zitat Zit. nach Lange B (2017) Jenseits von Babel. Maschinelle Übersetzung mit neuronalen Netzwerken. iX Magazin für professionelle Informationstechnik, Ausgabe März 2017, S. 91 Zit. nach Lange B (2017) Jenseits von Babel. Maschinelle Übersetzung mit neuronalen Netzwerken. iX Magazin für professionelle Informationstechnik, Ausgabe März 2017, S. 91
12.
Zurück zum Zitat Blei D M, Ng A Y, Jordan M I (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003), S. 993–1022MATH Blei D M, Ng A Y, Jordan M I (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003), S. 993–1022MATH
13.
Zurück zum Zitat Perkuhn R, Keibel H, Kupietz M (2012) Korpuslinguistik, Wilhelm Fink Verlag, Paderborn, S. 100 Perkuhn R, Keibel H, Kupietz M (2012) Korpuslinguistik, Wilhelm Fink Verlag, Paderborn, S. 100
14.
Zurück zum Zitat Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. S. 2/3 Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. S. 2/3
15.
Zurück zum Zitat Evert S, Frötschl B, Wolfgang Lindstrot W (2010) Statistische Grundlagen. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie, Spektrum Verlag, Heidelberg, S. 115 Evert S, Frötschl B, Wolfgang Lindstrot W (2010) Statistische Grundlagen. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie, Spektrum Verlag, Heidelberg, S. 115
16.
Zurück zum Zitat Goodfellow I, Bengio Y, Courville A (2016) Deep Learning, MIT Press, Cambridge MA, S. 446 Goodfellow I, Bengio Y, Courville A (2016) Deep Learning, MIT Press, Cambridge MA, S. 446
17.
Zurück zum Zitat Möbius B, Haber U (2010) Verarbeitung gesprochener Sprache. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. S. 219 Möbius B, Haber U (2010) Verarbeitung gesprochener Sprache. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. S. 219
18.
Zurück zum Zitat Yogeshwar R (2017) Nächste Ausfahrt Zukunft, Kiepenheuer & Witsch, Köln, S. 170 f. Yogeshwar R (2017) Nächste Ausfahrt Zukunft, Kiepenheuer & Witsch, Köln, S. 170 f.
19.
Zurück zum Zitat Lenzen M (2002) Natürliche und Künstliche Intelligenz – Einführung in die Kognitionswissenschaft, Campus Verlag, Frankfurt a. M., S. 69 Lenzen M (2002) Natürliche und Künstliche Intelligenz – Einführung in die Kognitionswissenschaft, Campus Verlag, Frankfurt a. M., S. 69
Metadaten
Titel
Die Kumpel des Textbergbaus
verfasst von
Wolf Zimmer
Copyright-Jahr
2019
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-662-59771-2_17