Skip to main content
Top

2012 | OriginalPaper | Chapter

8. Spracheingabe

Author : Prof. Dr. -Ing. Klaus Fellbaum

Published in: Sprachverarbeitung und Sprachübertragung

Publisher: Springer Berlin Heidelberg

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Die Spracheingabe dient im Wesentlichen zwei Zielen: der Erkennung von Sprache und der Erkennung eines Sprechers. Beide Erkennungsformen basieren weitgehend auf den gleichen Prinzipien der Merkmalextraktion und Klassifikation (vgl. Kap. 7). Der Unterschied zwischen den beiden Formen kommt bereits im Namen zum Ausdruck. Die Spracherkennung versucht, eine gesprochene Äußerung zu erkennen bzw. zu verstehen, um sie dann z. B. in Text oder Steuerungskommandos umzusetzen. Die Sprechererkennung dient der Verifizierung oder Identifizierung des Sprechers. Typische Anwendungen dabei sind die telefonische Banktransaktion sowie die Identifizierung eines erpresserischen Anrufers.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literature
go back to reference Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, Heidelberg Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, Heidelberg
go back to reference Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, Dresden Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, Dresden
go back to reference Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2CrossRef Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2CrossRef
go back to reference Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, Dresden Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, Dresden
go back to reference Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85 Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85
go back to reference Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, HeidelbergMATHCrossRef Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, HeidelbergMATHCrossRef
go back to reference Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing Magazine Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing Magazine
go back to reference Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech Commun Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech Commun
go back to reference Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11) Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11)
go back to reference Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., Bochum Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., Bochum
go back to reference Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, Berlin Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, Berlin
go back to reference Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik Verlag Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik Verlag
go back to reference Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEE Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEE
go back to reference Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, Dresden Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, Dresden
go back to reference Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, Berlin Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, Berlin
go back to reference Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, Heidelberg Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, Heidelberg
go back to reference Jessen M (2008b) Forensic phonetics. Language and linguistics compass Jessen M (2008b) Forensic phonetics. Language and linguistics compass
go back to reference Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8) Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8)
go back to reference Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New Jersey Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New Jersey
go back to reference Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52 Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52
go back to reference Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, Dresden Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, Dresden
go back to reference Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, Heidelberg Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, Heidelberg
go back to reference Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, Wien Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, Wien
go back to reference Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech Commun Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech Commun
go back to reference Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, Heidelberg Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, Heidelberg
go back to reference Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, DordrechtCrossRef Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, DordrechtCrossRef
go back to reference Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECH Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECH
go back to reference Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USA Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USA
go back to reference Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, Philadelphia Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, Philadelphia
go back to reference Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech Commun Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech Commun
go back to reference Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New York Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New York
go back to reference Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83 Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83
go back to reference Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech Commun Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech Commun
go back to reference Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2CrossRef Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2CrossRef
go back to reference Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, Heidelberg Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, Heidelberg
go back to reference Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7) Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7)
go back to reference Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J. Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J.
go back to reference Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2 Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2
go back to reference Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech Commun Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech Commun
go back to reference Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89 Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89
go back to reference Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2 Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2
go back to reference Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. Wien Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. Wien
go back to reference Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, Karlsruhe Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, Karlsruhe
go back to reference Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, HeidelbergCrossRef Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, HeidelbergCrossRef
go back to reference Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3 Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3
go back to reference Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, Braunschweig Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, Braunschweig
go back to reference Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, Berlin Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, Berlin
go back to reference Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, Berlin Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, Berlin
go back to reference Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l. Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l.
go back to reference Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, Science Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, Science
go back to reference Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, Berlin Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, Berlin
go back to reference Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11) Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11)
go back to reference Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, Berlin Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, Berlin
go back to reference Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio Proc Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio Proc
Metadata
Title
Spracheingabe
Author
Prof. Dr. -Ing. Klaus Fellbaum
Copyright Year
2012
Publisher
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-642-31503-9_8