Computerlinguistik und Sprachtechnologie

Eine Einführung

herausgegeben von: Dr. Kai-Uwe Carstensen, Dr. Christian Ebert, Dr. Cornelia Ebert, Prof. Dr. Susanne J. Jekat, Prof. Dr. Ralf Klabunde, Dr. habil. Hagen Langer

Verlag: Spektrum Akademischer Verlag

Enthalten in: Springer Professional "Wirtschaft+Technik" , Springer Professional "Technik" , Springer Professional "Wirtschaft"

Einloggen, um Zugang zu erhalten

Über dieses Buch

Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme.

Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung.

Inhaltsverzeichnis

Frontmatter

1. Computerlinguistik – Was ist das?

Zusammenfassung

Die Computerlinguistik ist das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. Sie ist im Überschneidungsbereich von Informatik und Linguistik angesiedelt, aber die Wurzeln der Computerlinguistik reichen bis in die fünfziger Jahre zurück. In diesem halben Jahrhundert seit ihrem Entstehen hat sie sich mittlerweile national und international erfolgreich etabliert, so dass auf dem Wissen aus der Informatik und der Linguistik aufbauend neue und eigenständige Methoden für die maschinelle Verarbeitung gesprochener und geschriebener Sprache entwickelt wurden.

Kai-Uwe Carstensen, Susanne J. Jekat, Ralf Klabunde

2. Formale Grundlagen

Zusammenfassung

Jede computerlinguistische Methode basiert auf speziellen mathematischen und informatik–orientierten Grundlagen. Diese Methoden wiederum finden bei der Entwicklung diverser Werkzeuge und Systeme Anwendung. In diesem Kapitel werden daher die Grundlagen für die im Kapitel 3 vorgestellten computerlinguistischen Methoden eingeführt sowie Grundlagen, die direkt für bestimmte Anwendungen einschlägig sind.

Ralf Klabunde

3. Methoden

Zusammenfassung

In diesem Kapitel zu den Methoden der Computerlinguistik und Sprachtechnologie werden die Grundbegriffe und wichtigsten Ansätze der Computerlinguistik eingeführt, welche sich mit den großen Gebieten der theoretischen Linguistik decken. Weiter werden Techniken vorgestellt, die aus den speziellen Erfordernissen der Verarbeitung natürlicher Sprache erwachsen sind. Dabei wird zum einen von den theoretischen Grundlagen des vorangegangen Kapitels reger Gebrauch gemacht werden, und zum anderen ein Ausblick auf Ressourcen und Anwendungen der beiden nachfolgenden Kapitel gegeben werden, bei denen die hier beschriebenen Methoden in der Praxis eingesetzt werden.

Christian Ebert, Cornelia Ebert

4. Ressourcen

Zusammenfassung

Ohne die Existenz bzw. die Entwicklung computerlinguistischer Ressourcen ist der theoretische und praktische Fortschritt in der Computerlinguistik heute nicht mehr vorstellbar. Die Verfügbarkeit entsprechender großer Datenmengen (z.B. Textkorpora und Sprachdatenbanken) ist mittlerweile meist Voraussetzung für computerlinguistische Tätigkeiten, sowohl im Rahmen empirisch abgesicherter theoretischer Untersuchungen als auch im Rahmen der Entwicklung praktischer Verfahren für die Sprachtechnologie. Natürlichsprachliche Systeme verfügen heute in der Regel über umfangreiche datenintensive Komponenten, und zwar sowohl sprachliche (z.B. Lexika) als auch nicht-sprachliche (zur Repräsentation nicht-sprachlichen Wissens). Auch das Testen einzelner Komponenten oder die Evaluierung eines gesamten Systems geschieht in zunehmendem Maße mithilfe ausgedehnter Testsets (Datenbanken aufbereiteter und unaufbereiteter sprachlicher Daten), um eine qualitativ hochstehende objektive Bewertung zu gewährleisten.

Kai-Uwe Carstensen

5. Anwendungen

Zusammenfassung

Im Grunde stand am Anfang der Computerlinguistik die Anwendung: Die ersten elektronischen Rechner wurden im Wesentlichen dazu hergestellt, um bestimmte Codes (nichts anderes als Geheim–„Sprachen“) zu entschlüsseln, und auch ambitionierte Entwicklungen zu „klassischen“ Themen der Computerlinguistik wie dem der maschinellen Übersetzung natürlicher Sprachen fanden statt, bevor die eigentlichen theoretischen und methodischen Grundlagen (oder die Disziplin an sich) geschaffen waren. Nicht von ungefähr führte dies in den 60er Jahren zu dem im ALPAC-Report manifestierten Vertrauensbruch in die damalige Sprachverarbeitung (vgl. auch Unterkapitel 1.2). Jahrelang existierte die mittlerweile gegründete Computerlinguistik danach im Wesentlichen nur im universitären Bereich, gehemmt durch die frappante Diskrepanz zwischen Anspruch (automatisches Sprachverstehen, -produzieren und -übersetzen) und Realität (fehlende Theorien, mangelhafte Methoden, unzureichende Rechnerperformanz).

Kai-Uwe Carstensen

6. Evaluation von sprachverstehenden und -generierenden Systemen

Zusammenfassung

In diesem Kapitel wird aufgezeigt, wie die Evaluation sprachverarbeitender Systeme gestaltet werden kann. Dazu werden zunächst grundlegende Begriffe eingeführt (Unterkapitel 6.1), die verschiedenen Gründe für eine Evaluation dargelegt (Abschnitt 6.1.1) und daraus das weitere Vorgehen abgeleitet. Anschließend werden die Evaluationsmethoden (Abschnitt 6.1.2) und Qualitätsmerkmale (Abschnitt 6.1.3) vorgestellt. Die eingeführten Begriffe und Konzepte zur Evaluation werden am Beispiel der Evaluation von Systemen mit unterschiedlichen zentralen Funktionen (Spracherkennung, Dialogsysteme, Sprachsynthese und Maschinelle Übersetzung, vgl. Unterkapitel 6.2) aufgezeigt.

Hans-Peter Hutter, Susanne J. Jekat

Backmatter

Titel: Computerlinguistik und Sprachtechnologie
herausgegeben von: Dr. Kai-Uwe Carstensen
Dr. Christian Ebert
Dr. Cornelia Ebert
Prof. Dr. Susanne J. Jekat
Prof. Dr. Ralf Klabunde
Dr. habil. Hagen Langer
Verlag: Spektrum Akademischer Verlag
Electronic ISBN: 978-3-8274-2224-8
Print ISBN: 978-3-8274-2023-7
DOI: https://doi.org/10.1007/978-3-8274-2224-8