Skip to main content
main-content

Inhaltsverzeichnis

Frontmatter

Einleitung

1. Einleitung

Zusammenfassung
Die Erfindung der ersten Rechenmaschinen und auch die Entwicklung der ersten elektronischen Universalrechenautomaten war getrieben von der Idee, den Menschen bei bestimmten Arbeitsabläufen zu entlasten. Man dachte damals allerdings tatsächlich “nur” an das Rechnen und noch keineswegs an Handreichungen im Haushalt. Die entwickelten Rechenmaschinen sollten also Aufgaben übernehmen, die der Mensch selbstverständlich auch zu erledigen vermochte, die aber durch ein automatisches System wesentlich ausdauernder und damit zuverlässiger und billiger ausgeführt werden können.
Gernot A. Fink

Anwendungen

2. Anwendungen

Zusammenfassung
Die Interaktion mittels gesprochener Sprache stellt die vorherrschende Modalität zur Kommunikation von Menschen untereinander dar. Mit Hilfe sprachlicher Äußerungen können Emotionen vermittelt, Ironie zum Ausdruck gebracht, schlicht “Konversation” gemacht oder Informationen übermittelt werden. Dieser letzte Aspekt steht bei der automatischen Verarbeitung von Sprache bei weitem im Vordergrund. Mit gesprochener Sprache lassen sich Informationen einigermaßen mühelos und mit einer relativ hohen “Datenrate” von bis zu 250 Wörtern pro Minute vermitteln bzw. übertragen. Damit übertrifft diese Modalität prinzipiell alle anderen Kommunikationsmöglichkeiten des Menschen z.B. durch Gestik, Handschrift oder Tastatureingabe bezüglich Einfachheit der Anwendung und Effizienz. Daraus wird in der Literatur vielfach gefolgert, dass gesprochene Sprache auch die beste Lösung zur Kommunikation mit automatischen Systemen sei. Dies darf jedoch bezweifelt werden, wie die Vorstellung eines Großraumbüros, in dem alle Mitarbeiter auf ihre Rechner einreden, oder die nur per Sprache und nicht per einfachem Knopfdruck bedienbare Kaffeemaschine zeigen.
Gernot A. Fink

Theorie

Frontmatter

3. Grundlagen der Statistik

Zusammenfassung
Viele in natürlichen Prozessen zu beobachtende Ereignisse unterliegen keiner klaren Gesetzmäßigkeit, sondern zeigen ein zufälliges Verhalten. Über einen einzelnen solchen Vorgang können daher keine Aussagen gemacht werden. Allerdings lassen sich auch bei zufälligen Prozessen gewisse Regelmäßigkeiten beobachten, wenn man ihr Verhalten in häufiger Wiederholung betrachtet und vom Einzelfall abstrahiert. Die Wahrscheinlichkeitsrechnung stellt zur Behandlung von Gesetzmäßigkeiten, die solchen zufälligen Vorgängen zugrundeliegen, die notwendigen mathematischen Modelle bereit. Die Statistik behandelt darüberhinaus das Problem, wie die Parameter solcher Modelle aus Beobachtungen abgeleitet werden können.
Gernot A. Fink

4. Vektorquantisierung

Zusammenfassung
Bei der Verarbeitung von Signaldaten im Rechner ergibt sich immer das Problem, diese Daten in einerseits möglichst kompakter aber andererseits auch hinreichend genauer Weise digital darzustellen. Da digitale Repräsentationen notwendigerweise auch endlich sind, ist es daher Ziel eines sogenannten Vektorquantisierers, Vektoren aus einem Eingabedatenraum auf eine endliche Menge typischer Repräsentanten abzubilden. Dabei sollte möglichst keine für die weitere Verarbeitung relevante Information verloren gehen. Den Aufwand zur Speicherung oder Übertragung vektorwertiger Daten versucht man daher durch die Elimination darin enthaltener redundanter Information zu reduzieren.
Gernot A. Fink

5. Hidden-Markov-Modelle

Zusammenfassung
Im Bereich der Mustererkennung betrachtet man Signale häufig als das Produkt statistisch agierender Quellen. Das Ziel der Signalanalyse ist es daher, die statistischen Eigenschaften dieser angenommenen Signalquellen möglichst genau zu modellieren. Als Basis der Modellbildung stehen dabei lediglich die beobachteten Beispieldaten sowie einschränkende Annahmen über die Freiheitsgrade des Modells zur Verfügung. Das zu bestimmende Modell soll aber nicht nur die Generierung gewisser Daten möglichst exakt replizieren, sondern auch Ansatzpunkte zur Segmentierung der Signale in bedeutungstragende Einheiten liefern können.
Gernot A. Fink

6. n-Gramm-Modelle

Zusammenfassung
Ein statistisches Sprachmodell in seiner allgemeinsten Form definiert eine Wahrscheinlichkeitsverteilung über einer Menge von Symbolfolgen aus einem endlichen Inventar. Als “Sprachmodell” bezeichnet man diese Verfahren deshalb, weil ihre Entstehung und Verbreitung eng mit der statistischen Modellierung von Texten sowie der Restriktion möglicher Worthypothesenfolgen bei der Spracherkennung verknüpft ist.
Gernot A. Fink

Praxis

Frontmatter

7. Rechnen mit Wahrscheinlichkeiten

Zusammenfassung
Der Umgang mit Wahrscheinlichkeitswerten in realen Rechnersystemen erscheint auf den ersten Blick als triviales Problem, da der Wertebereich dieser Größen auf das Intervall [0.0…1.0] beschränkt ist. Trotzdem treten besonders bei längeren Rechengängen numerische Probleme auf, da extrem kleine,also nahe bei Null liegende Werte repräsentiert und manipuliert werden müssen.
Gernot A. Fink

8. Konfiguration von Hidden-Markov-Modellen

Zusammenfassung
Für n-Gramm-Sprachmodelle sind die entscheidenden Konfigurationsparameter durch den Umfang des verwendeten Lexikons und die zu berücksichtigende Kontextlänge gegeben. Im Gegensatz dazu ist bei der Erstellung von HMMs für eine bestimmte Anwendung nicht unmittelbar klar, wie groß das oder die Modelle gewählt werden sollen, welche Art der Emissionsmodellierung zum Einsatz kommen soll und ob sich die Anzahl der möglichen Pfade durch das Modell einschränken lässt.
Gernot A. Fink

9. Robuste Parameterschätzung

Zusammenfassung
Beim praktischen Einsatz von HMMs steht man, wie generell im Bereich der statistischen Mustererkennung, dem Problem gegenüber, die Parameter des Modells aus den verfügbaren Trainingsbeispielen robust zu schätzen. Die Situation ist zwar nicht so extrem wie im Falle von n-Gramm-Modellen, für die man ohne geeignete Maßnahmen überhaupt keine sinnvollen Modelle erstellen könnte (vgl. Abschnitt 6.5). Allerdings wird man auch bei HMMs mit dem sogenannten sparse data problem1 konfrontiert, wenn man mit komplexeren Modellarchitekturen arbeitet. Die Wahrscheinlichkeit ist dann groß, dass sich Modellparameter entweder aus numerischen Gründen nicht mehr berechnen lassen, oder eine Überanpassung (engl. overfitting) des Modells an die betrachteten Beispieldaten eintritt. Dies kann im Extremfall dazu führen, dass die geschätzten Modelle die Stichprobe “auswendig gelernt” haben, d.h. nur noch bekannte Datenbeispiele beschreiben. Durch die begleitende Evaluation auf einer unabhängigen Kreuzvalidierungsstichprobe lässt sich ein solches Verhalten jedoch in der Regel diagnostizieren und der Trainingsprozess dann an einer geeigneten Stelle abbrechen.
Gernot A. Fink

10. Effiziente Modellauswertung

Zusammenfassung
Mit dem Viterbi-Algorithmus wurde in Abschnitt 5.6 eine Dekodierungsvorschrift für HMMs vorgestellt, und auch zur Auswertung von n-Gramm-Modellen existieren Algorithmen wie z.B. das auf den Seiten 110ff beschriebene sogenannte backing-off. Allerdings stellen diese Methoden nur das Grundgerüst dar, auf dem aufbauend Algorithmen für die effiziente und integrierte Auswertung von Markov-Modellen in der Praxis entwickelt werden.
Gernot A. Fink

11. Modellanpassung

Zusammenfassung
Sowohl HMMs als auch n-Gramm-Modelle werden normalerweise unter Verwendung einer Trainingsstichprobe erstellt und anschließend zur Segmentierung neuer Daten eingesetzt. Diese sind per definitionem nicht Teil der Trainingsbeispiele und können das in praktischen Anwendungen auch nicht sein. Die charakteristischen Eigenschaften dieser Testdaten können daher auf der Basis des Trainingsmaterials lediglich bis zu einem gewissen Grad vorhergesagt werden. Im allgemeinen werden daher immer Unterschiede zwischen Trainings- und Testmaterial auftreten, die von den erstellten statistischen Modellen nicht erfasst werden können und letztendlich die Qualität der erzielten Ergebnisse beeinträchtigen.
Gernot A. Fink

12. Integrierte Suchverfahren

Zusammenfassung
Die wohl anspruchsvollsten Anwendungen der Markov-Modell-Technologie stellen Erkennungsaufgaben mit sehr großen Inventarien zu segmentierender Einheiten dar. Typische Beispiele hierfür sind Diktiersysteme mit Wortschätzen von einigen 10 000 oder 100 000 Wörtern oder auch Systeme zur Schrifterkennung mit nahezu uneingeschränktem Vokabular. Die Modellierung der Segmentierungseinheiten — also der gesprochenen oder geschriebenen Wörter — mit Hilfe von HMMs hat sich, wie auch in einfacheren Systemen, als Quasi-Standard etabliert. Allerdings sind für solche umfangreichen Erkennungsaufgaben zusätzliche Einschränkungen der möglichen oder plausiblen Abfolgen von Segmenten unerlässlich, um den Suchaufwand in handhabbaren Grenzen zu halten. Die Beschreibung solcher Restriktionen mit n-Gramm-Modellen bietet gegenüber anderen Verfahren den entscheidenden Vorteil, dass zwei kompatible Formalismen zum Einsatz kommen und dadurch eine kombinierte Anwendung einfacher und mit größerem Erfolg möglich ist.
Gernot A. Fink

Systeme

Frontmatter

13. Spracherkennung

Zusammenfassung
Obwohl schon eine Reihe kommerzieller Spracherkennungssysteme auf dem Markt verfügbar sind, sollte das Problem der automatischen Erkennung gesprochener Sprache noch keineswegs als gelöst angesehen werden, auch wenn die Medien und selbst einzelne Forscher gelegentlich diesen Eindruck erwecken. Da inzwischen eine Vielzahl von Techniken erforderlich sind, um ein konkurrenzfähiges Spracherkennungssystem zu erstellen, gibt es nur ganz wenige Systeme, die sich an der Spitze der internationalen Forschung behaupten können.
Gernot A. Fink

14. Schrifterkennung

Zusammenfassung
Im Gegensatz zur automatischen Spracherkennung, wo Markov-Modell-basierte Verfahren derzeit den Stand der Technik repräsentieren, stellen HMMs und n-Gramm-Modelle im Bereich der Schrifterkennung noch einen relativ neuen Ansatz dar. Dies mag in der Tatsache begründet liegen, dass sich Schriftdaten in der Regel einfacher in handhabbare Abschnitte wie z.B. einzelne Wörter segmentieren lassen. Daher existieren speziell in der OCR, aber auch zur Verarbeitung von Formularen oder zum Lesen von Adressfeldern eine Reihe etablierter Methoden, die auf die klassische Trennung von Segmentierung und Klassifikation setzen. Segmentierungsfreie Verfahren auf der Basis von Markov-Modellen werden dagegen hauptsächlich von Forschern angewandt, die mit dieser Technologie im Bereich der Spracherkennung bereits Erfahrungen gesammelt haben.
Gernot A. Fink

15. Analyse biologischer Sequenzen

Zusammenfassung
Bei HMM-Anwendungen in der Bioinformatik gewinnt man den Eindruck, dass dort noch das Bestreben besteht, möglichst viele Details der Modelle durch Expertenwissen zu beeinflussen, d.h. von Hand heuristisch festzulegen. Dies mag für die trotz der nahezu abgeschlossenen Sequenzierung des menschlichen Genoms immer noch an chronischem Datenmangel leidende Disziplin auch die aktuell einzige aussichtsreiche Methode darstellen.
Gernot A. Fink

Backmatter

Weitere Informationen