Skip to main content
Top

2022 | OriginalPaper | Chapter

26. Ist Stimme das neue Blut? KI und Stimmbiomarker zu früheren Diagnose – für jedermann, überall und jederzeit

Authors : Dagmar M. Schuller, Björn W. Schuller

Published in: Künstliche Intelligenz im Gesundheitswesen

Publisher: Springer Fachmedien Wiesbaden

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Wenn ein Mensch spricht oder Laute von sich gibt, transportiert er neben dem Inhalt auch wesentliche andere Merkmale, die Rückschlüsse auf seine Eigenschaften und seinen Zustand zulassen. Wie jemand etwas gesagt hat, überträgt oftmals eine viel wesentlichere Botschaft als der Inhalt selbst. So können aus der Stimme neben Geschlecht, Alter, Dialekt auch Emotionszustände, Persönlichkeitsmerkmale, Sprachstörungen und insbesondere Hinweise auf Krankheiten erkannt werden. Seit Anfang der 2000er-Jahre haben sich der Wissenschaftsbereich der Computer Audition inklusive des Spoken Language Processing (SLP) und der Computational Paralinguistics (CP) zunehmend mit diesen Merkmalen beschäftigt. Die menschliche Laut- und Sprachproduktion ist ein komplexes System, bei welchem eine Vielzahl von Muskelgruppen und Organen beteiligt sind. Beeinträchtigungen einzelner oder mehrerer beteiligter Muskeln oder Organe stören die Produktion, was als Dysfunktionalität oder Anomalie im Audiosignal wahrgenommen werden kann. Ebenso komplex ist die Steuerung dieser Muskelgruppen durch das kognitive System, dessen Störung ebenfalls im Audiosignal „hörbar“ ist. Ferner wirken sich anatomische und physiologische Gegebenheiten auf die Klangprägung aus und sind entsprechend „erhörbar“. Durch den Einsatz von maschinellem Lernen, insbesondere tiefer neuronaler Netze und weiteren Verfahren maschinellen Lernens oder allgemeinerer künstlicher Intelligenz (KI) konnte so in den letzten Jahren eine zunehmend robustere Erkennungsleistung bei der Diagnose von Krankheiten und Symptomen aus den menschlichen Lauten und gesprochenen Sprache erzielt werden. Dieser Beitrag gibt einen kurzen Einblick in die Funktionsweise und zeigt die bereits bestehenden Möglichkeiten des Einsatzes der KI-basierten Audioanalyse für das Gesundheitswesen, insbesondere im Zusammenhang mit neurodegenerativen, neurokognitiven, neuroentwicklungsbezogenen und psychischen, aber auch respiratorischen Krankheiten auf und gibt einen Ausblick über die zukünftige Entwicklung.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literature
go back to reference Abdelwahab M., & Busso C. (2019) Active learning for speech emotion recognition using deep neural network. In 2019 8th International Conference on Affective Computing and Intelligent Interaction (ACII), (IEEE), 03.09.‒06.09.2019, Cambridge UK, S. 1–7. https://doi.org/10.1109/ACII.2019.8925524. Abdelwahab M., & Busso C. (2019) Active learning for speech emotion recognition using deep neural network. In 2019 8th International Conference on Affective Computing and Intelligent Interaction (ACII), (IEEE), 03.09.‒06.09.2019, Cambridge UK, S. 1–7. https://​doi.​org/​10.​1109/​ACII.​2019.​8925524.
go back to reference Cummins, N., Baird, A., & Schuller, B. W. (2018). Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods, 151, 41–54 Cummins, N., Baird, A., & Schuller, B. W. (2018). Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods, 151, 41–54
go back to reference Deng, J., Schuller, B., Eyben, F., Schuller, D., Zhang, Z., Francois, H., & Oh, E. (2020). Exploiting time-frequency patterns with LSTM-RNNs for low-bitrate audio restoration. Neural Computing and Applications, 32(4), 1095–1107.CrossRef Deng, J., Schuller, B., Eyben, F., Schuller, D., Zhang, Z., Francois, H., & Oh, E. (2020). Exploiting time-frequency patterns with LSTM-RNNs for low-bitrate audio restoration. Neural Computing and Applications, 32(4), 1095–1107.CrossRef
go back to reference Eyben, F., Wöllmer, M., & Schuller, B. (2009). OpenEAR—introducing the Munich open-source emotion and affect recognition toolkit. In 2009 3rd international conference on affective computing and intelligent interaction and workshops, Institute of Electrical and Electronics Engineers (IEEE), 10.09.‒12.09.2009, Amsterdam, Netherlands, S. 1–6. https://doi.org/10.1109/ACII.2009.5349350. Eyben, F., Wöllmer, M., & Schuller, B. (2009). OpenEAR—introducing the Munich open-source emotion and affect recognition toolkit. In 2009 3rd international conference on affective computing and intelligent interaction and workshops, Institute of Electrical and Electronics Engineers (IEEE), 10.09.‒12.09.2009, Amsterdam, Netherlands, S. 1–6. https://​doi.​org/​10.​1109/​ACII.​2009.​5349350.
go back to reference Ismail, M. A., Deshmukh, S., & Singh, R. (2020). Detection of COVID-19 through the analysis of vocal fold oscillations. arXiv preprint arXiv:2010.10707. Ismail, M. A., Deshmukh, S., & Singh, R. (2020). Detection of COVID-19 through the analysis of vocal fold oscillations. arXiv preprint arXiv:​2010.​10707.
go back to reference Johri, A., & Tripathi, A. (2019). Parkinson Disease Detection Using Deep Neural Networks. In 2019 Twelfth International Conference on Contemporary Computing (IC3) Institute of Electrical and Electronics Engineers (IEEE), 08.08.‒10.08.2019, Noida, India, S. 1–4. https://doi.org/10.1109/IC3.2019.8844941. Johri, A., & Tripathi, A. (2019). Parkinson Disease Detection Using Deep Neural Networks. In 2019 Twelfth International Conference on Contemporary Computing (IC3) Institute of Electrical and Electronics Engineers (IEEE), 08.08.‒10.08.2019, Noida, India, S. 1–4. https://​doi.​org/​10.​1109/​IC3.​2019.​8844941.
go back to reference Kraus, M. W. (2017). Voice-only communication enhances empathic accuracy. American Psychologist, 72(7), 644.CrossRef Kraus, M. W. (2017). Voice-only communication enhances empathic accuracy. American Psychologist, 72(7), 644.CrossRef
go back to reference LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521, 436–444 LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521, 436–444
go back to reference Oviatt, S., Coulston, R., & Lunsford, R. (2004). When do we interact multimodally? Cognitive load and multimodal communication patterns. In: Proceedings of the 6th international conference on Multimodal interfaces, international conference on Multimodal interfaces (ICMI) 2004, State College, PA, USA, 13.10.‒15.10.2004, S. 129–136. Oviatt, S., Coulston, R., & Lunsford, R. (2004). When do we interact multimodally? Cognitive load and multimodal communication patterns. In: Proceedings of the 6th international conference on Multimodal interfaces, international conference on Multimodal interfaces (ICMI) 2004, State College, PA, USA, 13.10.‒15.10.2004, S. 129–136.
go back to reference Picard, R. W. (2000). Affective computing. MIT press, Massachusetts Institute of Technology.CrossRef Picard, R. W. (2000). Affective computing. MIT press, Massachusetts Institute of Technology.CrossRef
go back to reference Ren, Z., Han, J., Cummins, N., & Schuller, B. W. (2020). Enhancing transferability of black-box adversarial attacks via lifelong learning for speech emotion recognition models. In Proceedings Interspeech 2020, 25.10.‒29.10.2020, Shanghai, China, S. 496–500. https://doi.org/10.21437/Interspeech.2020-1869. Ren, Z., Han, J., Cummins, N., & Schuller, B. W. (2020). Enhancing transferability of black-box adversarial attacks via lifelong learning for speech emotion recognition models. In Proceedings Interspeech 2020, 25.10.‒29.10.2020, Shanghai, China, S. 496–500. https://​doi.​org/​10.​21437/​Interspeech.​2020-1869.
go back to reference Ringeval, F., Schuller, B., Valstar, M., Cummins, N., Cowie, R., Tavabi, L., Schmitt, M., Alisamir, S., Amiriparian, S., Messner, E.-M., Song, S. Liu, S., Zhao, Z., Mallol-Ragnolta, A., Ren, Z., Soleymani, M., & Pantic, M. (2019). AVEC 2019 workshop and challenge: state-of-mind, detecting depression with AI, and cross-cultural affect recognition. In Proceedings of the 9th International on Audio/Visual Emotion Challenge and Workshop, Fabien Ringeval; ACM Special Interest Group on Multimedia, Association for Computing Machinery (ACM), Nice, France, 21.10.2019, S. 3–12. https://doi.org/10.1145/3347320.3357688. Ringeval, F., Schuller, B., Valstar, M., Cummins, N., Cowie, R., Tavabi, L., Schmitt, M., Alisamir, S., Amiriparian, S., Messner, E.-M., Song, S. Liu, S., Zhao, Z., Mallol-Ragnolta, A., Ren, Z., Soleymani, M., & Pantic, M. (2019). AVEC 2019 workshop and challenge: state-of-mind, detecting depression with AI, and cross-cultural affect recognition. In Proceedings of the 9th International on Audio/Visual Emotion Challenge and Workshop, Fabien Ringeval; ACM Special Interest Group on Multimedia, Association for Computing Machinery (ACM), Nice, France, 21.10.2019, S. 3–12. https://​doi.​org/​10.​1145/​3347320.​3357688.
go back to reference Robinson, C., Obin, N., & Roebel, A. (2019). Sequence-to-sequence modelling of F0 for speech emotion conversion. In ICASSP 2019–2019 IEEE, International Conference on Acoustics, Speech and Signal Processing (ICASSP), Institute of Electrical and Electronics Engineers (IEEE), May 2019, Brighton, UK, S. 6830–6834. https://doi.org/10.1109/ICASSP.2019.8683865 Robinson, C., Obin, N., & Roebel, A. (2019). Sequence-to-sequence modelling of F0 for speech emotion conversion. In ICASSP 2019–2019 IEEE, International Conference on Acoustics, Speech and Signal Processing (ICASSP), Institute of Electrical and Electronics Engineers (IEEE), May 2019, Brighton, UK, S. 6830–6834. https://​doi.​org/​10.​1109/​ICASSP.​2019.​8683865
go back to reference Schuller B. W., Batliner A., Bergler C., Pokorny F., Krajewski J., Cychosz M., Vollmann R., Roelen S.-D., Schnieder S., Bergelson E., Cristià A., Seidl A., Yankowitz L., Nöth E., Amiriparian S., Hantke S., & Schmitt M. (2019) “The INTERSPEECH 2019 Computational Paralinguistics Challenge: Styrian Dialects, Continuous Sleepiness, Baby Sounds & Orca Activity,” in Proceedings INTERSPEECH 2019, 20th Annual Conference of the International Speech Communication Association, (Graz, Austria), pp. 2378–2382, ISCA, ISCA, September 2019. (acceptance rate: 49.3 %) Schuller B. W., Batliner A., Bergler C., Pokorny F., Krajewski J., Cychosz M., Vollmann R., Roelen S.-D., Schnieder S., Bergelson E., Cristià A., Seidl A., Yankowitz L., Nöth E., Amiriparian S., Hantke S., & Schmitt M. (2019) “The INTERSPEECH 2019 Computational Paralinguistics Challenge: Styrian Dialects, Continuous Sleepiness, Baby Sounds & Orca Activity,” in Proceedings INTERSPEECH 2019, 20th Annual Conference of the International Speech Communication Association, (Graz, Austria), pp. 2378–2382, ISCA, ISCA, September 2019. (acceptance rate: 49.3 %)
go back to reference Schuller, B., Steidl, S., & Batliner, A. (2009). The interspeech 2009 emotion challenge. In Tenth Annual Conference of the International Speech Communication Association (ISCA) 2009, 06.09.‒10.09.2009, Brighton, UK, S. 312–315. Schuller, B., Steidl, S., & Batliner, A. (2009). The interspeech 2009 emotion challenge. In Tenth Annual Conference of the International Speech Communication Association (ISCA) 2009, 06.09.‒10.09.2009, Brighton, UK, S. 312–315.
go back to reference Schuller, B. W., Schuller, D. M., Qian, K., Liu, J., Zheng, H., & Li, X. (2020). Covid-19 and computer audition: An overview on what speech & sound analysis could contribute in the SARS-CoV-2 Corona crisis. arXiv preprint arXiv:2003.11117. Schuller, B. W., Schuller, D. M., Qian, K., Liu, J., Zheng, H., & Li, X. (2020). Covid-19 and computer audition: An overview on what speech & sound analysis could contribute in the SARS-CoV-2 Corona crisis. arXiv preprint arXiv:​2003.​11117.
go back to reference Schuller, D., & Schuller, B. (2018). The age of artificial emotional intelligence. Institute of Electrical and Electronics Engineers (IEEE) Computer Magazine, 51(9), 38–46. Schuller, D., & Schuller, B. (2018). The age of artificial emotional intelligence. Institute of Electrical and Electronics Engineers (IEEE) Computer Magazine, 51(9), 38–46.
go back to reference Trigeorgis, G., Ringeval, F., Brueckner, R., Marchi, E., Nicolaou, M. A., Schuller, B., & Zafeiriou, S. (2016). Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network. In The 41st IEEE international conference on acoustics, speech and signal processing (ICASSP) 2016, Institute of Electrical and Electronics Engineers (IEEE), 20.03.‒25.03.2016, Shanghai, China, S. 5200–5204. Trigeorgis, G., Ringeval, F., Brueckner, R., Marchi, E., Nicolaou, M. A., Schuller, B., & Zafeiriou, S. (2016). Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network. In The 41st IEEE international conference on acoustics, speech and signal processing (ICASSP) 2016, Institute of Electrical and Electronics Engineers (IEEE), 20.03.‒25.03.2016, Shanghai, China, S. 5200–5204.
go back to reference Wagner, J., André, E., & Jung, F. (2009). Smart sensor integration: A framework for multimodal emotion recognition in real-time. In 2009 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, Institute of Electrical and Electronics Engineers (IEEE), 10.09.‒12.09.2009, Amsterdam, Netherlands, S. 1–8. Wagner, J., André, E., & Jung, F. (2009). Smart sensor integration: A framework for multimodal emotion recognition in real-time. In 2009 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, Institute of Electrical and Electronics Engineers (IEEE), 10.09.‒12.09.2009, Amsterdam, Netherlands, S. 1–8.
go back to reference Wöllmer, M., Eyben, F., Reiter, S., Schuller, B., Cox, C., Douglas-Cowie, E., & Cowie, R. (2008). Abandoning emotion classes-towards continuous emotion recognition with modelling of long-range dependencies. In Proceedings of the 9th Interspeech 2008 incorp. 12th Australasian International Conference on Speech Science and Technology , Speech Science and Technology (SST) 2008, 22.09.‒26.09.2008, Brisbane, Australia, S. 597–600. Wöllmer, M., Eyben, F., Reiter, S., Schuller, B., Cox, C., Douglas-Cowie, E., & Cowie, R. (2008). Abandoning emotion classes-towards continuous emotion recognition with modelling of long-range dependencies. In Proceedings of the 9th Interspeech 2008 incorp. 12th Australasian International Conference on Speech Science and Technology , Speech Science and Technology (SST) 2008, 22.09.‒26.09.2008, Brisbane, Australia, S. 597–600.
go back to reference Xie, Y., Liang, R., Liang, Z., Huang, C., Zou, C., & Schuller, B. (2019). Speech emotion classification using attention-based LSTM. Institute of Electrical and Electronics Engineers (IEEE)/Association for Computing Machinery (ACM) Transactions on Audio, Speech, and Language Processing, 27(11), 1675–1685. https://doi.org/10.1109/TASLP.2019.2925934. Xie, Y., Liang, R., Liang, Z., Huang, C., Zou, C., & Schuller, B. (2019). Speech emotion classification using attention-based LSTM. Institute of Electrical and Electronics Engineers (IEEE)/Association for Computing Machinery (ACM) Transactions on Audio, Speech, and Language Processing, 27(11), 1675–1685. https://​doi.​org/​10.​1109/​TASLP.​2019.​2925934.
go back to reference Zhang, Z., Han, J., Qian, K., & Schuller, B. W. (2018). Evolving learning for analysing mood-related infant vocalisation. In Interspeech, 02.09.‒06.09.2018, Hyderabad, India, S. 142–146. Zhang, Z., Han, J., Qian, K., & Schuller, B. W. (2018). Evolving learning for analysing mood-related infant vocalisation. In Interspeech, 02.09.‒06.09.2018, Hyderabad, India, S. 142–146.
go back to reference Zhang, J.-j., Dong, X., Cao, Y.-y., Yuan, Y.-d., Yang, Y.-b., Yan, Y.-q., Akdis, C. A., & Gao, Y.-d. (2020). Clinical characteristics of 140 patients infected with SARS‐CoV‐2 in Wuhan. China. Allergy, 75, 1730–1741. Zhang, J.-j., Dong, X., Cao, Y.-y., Yuan, Y.-d., Yang, Y.-b., Yan, Y.-q., Akdis, C. A., & Gao, Y.-d. (2020). Clinical characteristics of 140 patients infected with SARS‐CoV‐2 in Wuhan. China. Allergy, 75, 1730–1741.
Metadata
Title
Ist Stimme das neue Blut? KI und Stimmbiomarker zu früheren Diagnose – für jedermann, überall und jederzeit
Authors
Dagmar M. Schuller
Björn W. Schuller
Copyright Year
2022
DOI
https://doi.org/10.1007/978-3-658-33597-7_26