Skip to main content

2012 | OriginalPaper | Buchkapitel

8. Spracheingabe

verfasst von : Prof. Dr. -Ing. Klaus Fellbaum

Erschienen in: Sprachverarbeitung und Sprachübertragung

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Die Spracheingabe dient im Wesentlichen zwei Zielen: der Erkennung von Sprache und der Erkennung eines Sprechers. Beide Erkennungsformen basieren weitgehend auf den gleichen Prinzipien der Merkmalextraktion und Klassifikation (vgl. Kap. 7). Der Unterschied zwischen den beiden Formen kommt bereits im Namen zum Ausdruck. Die Spracherkennung versucht, eine gesprochene Äußerung zu erkennen bzw. zu verstehen, um sie dann z. B. in Text oder Steuerungskommandos umzusetzen. Die Sprechererkennung dient der Verifizierung oder Identifizierung des Sprechers. Typische Anwendungen dabei sind die telefonische Banktransaktion sowie die Identifizierung eines erpresserischen Anrufers.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, Heidelberg Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, Heidelberg
Zurück zum Zitat Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, Dresden Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, Dresden
Zurück zum Zitat Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2CrossRef Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2CrossRef
Zurück zum Zitat Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, Dresden Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, Dresden
Zurück zum Zitat Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85 Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85
Zurück zum Zitat Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, HeidelbergMATHCrossRef Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, HeidelbergMATHCrossRef
Zurück zum Zitat Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing Magazine Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing Magazine
Zurück zum Zitat Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech Commun Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech Commun
Zurück zum Zitat Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11) Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11)
Zurück zum Zitat Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., Bochum Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., Bochum
Zurück zum Zitat Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, Berlin Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, Berlin
Zurück zum Zitat Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik Verlag Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik Verlag
Zurück zum Zitat Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEE Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEE
Zurück zum Zitat Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, Dresden Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, Dresden
Zurück zum Zitat Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, Berlin Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, Berlin
Zurück zum Zitat Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, Heidelberg Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, Heidelberg
Zurück zum Zitat Jessen M (2008b) Forensic phonetics. Language and linguistics compass Jessen M (2008b) Forensic phonetics. Language and linguistics compass
Zurück zum Zitat Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8) Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8)
Zurück zum Zitat Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New Jersey Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New Jersey
Zurück zum Zitat Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52 Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52
Zurück zum Zitat Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, Dresden Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, Dresden
Zurück zum Zitat Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, Heidelberg Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, Heidelberg
Zurück zum Zitat Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, Wien Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, Wien
Zurück zum Zitat Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech Commun Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech Commun
Zurück zum Zitat Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, Heidelberg Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, Heidelberg
Zurück zum Zitat Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, DordrechtCrossRef Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, DordrechtCrossRef
Zurück zum Zitat Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECH Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECH
Zurück zum Zitat Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USA Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USA
Zurück zum Zitat Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, Philadelphia Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, Philadelphia
Zurück zum Zitat Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech Commun Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech Commun
Zurück zum Zitat Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New York Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New York
Zurück zum Zitat Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83 Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83
Zurück zum Zitat Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech Commun Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech Commun
Zurück zum Zitat Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2CrossRef Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2CrossRef
Zurück zum Zitat Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, Heidelberg Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, Heidelberg
Zurück zum Zitat Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7) Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7)
Zurück zum Zitat Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J. Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J.
Zurück zum Zitat Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2 Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2
Zurück zum Zitat Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech Commun Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech Commun
Zurück zum Zitat Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89 Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89
Zurück zum Zitat Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2 Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2
Zurück zum Zitat Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. Wien Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. Wien
Zurück zum Zitat Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, Karlsruhe Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, Karlsruhe
Zurück zum Zitat Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, HeidelbergCrossRef Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, HeidelbergCrossRef
Zurück zum Zitat Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3 Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3
Zurück zum Zitat Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, Braunschweig Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, Braunschweig
Zurück zum Zitat Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, Berlin Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, Berlin
Zurück zum Zitat Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, Berlin Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, Berlin
Zurück zum Zitat Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l. Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l.
Zurück zum Zitat Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, Science Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, Science
Zurück zum Zitat Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, Berlin Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, Berlin
Zurück zum Zitat Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11) Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11)
Zurück zum Zitat Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, Berlin Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, Berlin
Zurück zum Zitat Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio Proc Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio Proc
Metadaten
Titel
Spracheingabe
verfasst von
Prof. Dr. -Ing. Klaus Fellbaum
Copyright-Jahr
2012
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-642-31503-9_8

Neuer Inhalt