Zum Inhalt

Automatische Optimierung von Audiosignalen für Transkription mit Evolutionären Algorithmen und Machine Learning

  • 2026
  • Buch

Über dieses Buch

In diesem Buch wird die Empfindlichkeit des Automatic Speech Recognition-Werkzeugs Whisper auf Störgeräusche untersucht. Hierbei werden unterschiedliche Geräuschtypen in verschiedenen Lautstärken untersucht. Es zeigte sich, dass einige Störgeräusche wie reines Rauschen oder Hintergrundgespräche einen höheren Einfluss auf die Transkript-Fehlerrate haben. Es wurde untersucht, ob mittels Machine Learning-Algorithmen und evolutionären Algorithmen eine Audioplugin-basierte Vorverarbeitung gefunden werden kann, welche die Transkriptgenauigkeit in Gegenwart von Störgeräuschen verbessert. Die Ergebnisse zeigen, dass mit den gewählten Methoden Verbesserungen für einzelne Störgeräusche erzielt werden konnten. Eine universelle Pluginkette zur Verbesserung der Transkriptgenauigkeit auf beliebigen Daten konnte jedoch nicht identifiziert werden.

Inhaltsverzeichnis

  1. Frontmatter

  2. Kapitel 1. Einleitung

    Jakob Behnke
    Zusammenfassung
    In einer alternden Gesellschaft ist eine gute gesundheitliche Versorgung sehr wichtig. Der Kontakt zwischen behandelndem Fachpersonal und Patient*in ist dabei entscheidend. Eine klare Kommunikation, ob zwischen behandelnder Person und Patient*in oder auch interdisziplinär zwischen Behandelnden, kann entscheidend zum Erfolg einer Therapie beitragen [40].
  3. Kapitel 2. Grundlagen

    Jakob Behnke
    Zusammenfassung
    Dieses Kapitel erklärt die grundlegende Begriffe und Konzepte dieser Arbeit. Zunächst wird der Begriff Automatic Speech Recognition erklärt. Anschließend werden Evolutionäre Algorithmen beschrieben sowie die verwendeten Bibliotheken DEAP und Optuna.
  4. Kapitel 3. Störempfindlichkeitsanalyse

    Jakob Behnke
    Zusammenfassung
    In diesem Kapitel wird die Störempfindlichkeit der Whisper-Modelle untersucht. Zunächst wird der Aufbau der Tests sowie die Generierung der gestörten Daten beschrieben. Anschließend werden die gewonnenen Daten analysiert.
  5. Kapitel 4. Optimierung

    Jakob Behnke
    Zusammenfassung
    In diesem Kapitel werden die Optimierungsversuche für Pluginketten zur Verbesserung der Transkripte beschrieben. Zunächst werden die Optimierungsverfahren beschrieben. Anschließend folgt die Durchführung, sowie der Vergleich der Ergebnisse.
  6. Kapitel 5. Fazit

    Jakob Behnke
    Zusammenfassung
    Ziel der vorliegenden Arbeit war die Untersuchung der Störempfindlichkeit des ASR-Werkzeugs Whisper.
  7. Backmatter

Titel
Automatische Optimierung von Audiosignalen für Transkription mit Evolutionären Algorithmen und Machine Learning
Verfasst von
Jakob Behnke
Copyright-Jahr
2026
Electronic ISBN
978-3-658-50048-1
Print ISBN
978-3-658-50047-4
DOI
https://doi.org/10.1007/978-3-658-50048-1

Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.

    Marktübersichten

    Die im Laufe eines Jahres in der „adhäsion“ veröffentlichten Marktübersichten helfen Anwendern verschiedenster Branchen, sich einen gezielten Überblick über Lieferantenangebote zu verschaffen. 

    Bildnachweise
    MKVS GbR/© MKVS GbR, Nordson/© Nordson, ViscoTec/© ViscoTec, BCD Chemie GmbH, Merz+Benteli/© Merz+Benteli, Robatech/© Robatech, Hermann Otto GmbH/© Hermann Otto GmbH, Ruderer Klebetechnik GmbH, Xometry Europe GmbH/© Xometry Europe GmbH, Atlas Copco/© Atlas Copco, Sika/© Sika, Medmix/© Medmix, Kisling AG/© Kisling AG, Dosmatix GmbH/© Dosmatix GmbH, Innotech GmbH/© Innotech GmbH, Hilger u. Kern GmbH, VDI Logo/© VDI Wissensforum GmbH, Dr. Fritz Faulhaber GmbH & Co. KG/© Dr. Fritz Faulhaber GmbH & Co. KG, ECHTERHAGE HOLDING GMBH&CO.KG - VSE, mta robotics AG/© mta robotics AG, Bühnen, The MathWorks Deutschland GmbH/© The MathWorks Deutschland GmbH, Spie Rodia/© Spie Rodia, Schenker Hydraulik AG/© Schenker Hydraulik AG