Sprach-Authentifizierung im Automobilsektor wird Realität
- 01-09-2023
- Fahrerassistenz
- Gastbeitrag
- Article
Activate our intelligent search to find suitable subject content or patents.
Select sections of text to find matching patents with Artificial Intelligence. powered by
Select sections of text to find additional relevant content using AI-assisted search. powered by (Link opens in a new window)
Der Bedarf nach Sprach-Authentifizierung wird größer, auch im Automobilbereich. Maria Müller und Dan Fitzpatrick von Frank Reply erklären, wie es möglich ist, das Auto einfach und sicher mit der Stimme aufzuschließen.
Sprachsteuerung im Auto ist eine praktische Sache. Doch wie kann man in natürlicher Sprache mit dem Incar-Infotainmentsystem kommunizieren und sich auch – nur per Stimme – als nutzungsberechtigt authentifizieren?
bizoo_n / Getty Images / iStock
Sprachsteuerung ist per se ist im Automobilbereich nichts Neues. Unser Navigationssystem gibt uns akustische Anweisungen und wir reagieren inzwischen auf demselben Interaktionsweg darauf. So versteht etwa "Laura", die Sprachassistentin von Skoda, nicht nur genuschelte Anweisungen, sondern auch verschiedene Dialekte, um Navigation oder Klimaanlage zu bedienen. Aussagen wie "mir ist kalt" oder "die Scheibe ist beschlagen" genügen, damit das Fahrzeug die Klimatisierung anpasst.
Auch in vielen anderen Branchen, etwa im Kundenservice und in Callcentern, kommen Sprachassistenten zum Einsatz. Spannend und herausfordernd wird es jedoch, wenn die Sprachsteuerung mit einer Sprach-Authentifizierung einhergeht. Dadurch lässt sich sicherstellen, dass ein Sprachbefehl eindeutig einer bestimmten Person beziehungsweise einer bestimmten Stimme zuzuordnen ist. Um die Identität einer/eines Anrufenden zu verifizieren, setzen beispielsweise Finanzinstitute auf Sprachauthentifizierungs-Systeme. Durch eine Verkettung verschiedener Methoden ließe sich sogar eine so robuste Sprach-Authentifizierung gestalten, die im Einzelhandel als Zahlungsmethode diente. Oder eben im Automobilbereich, um ein Auto zu entriegeln und zu starten.
Für derart zum Teil noch prototypische Szenarien spielen verschiedene Technologien, künstliche Intelligenz und semantische Netzwerke, Voiceprint-Applikationen, Microcontroller sowie digitale Zwillinge eine entscheidende Rolle.
Die Charakteristiken einer Stimme mit Voiceprints identifizieren
Stellen wir uns vor, wie praktisch es wäre, wenn man nach dem Einkaufen vollbepackt zur Sprachschnittstelle des Incar-Infotainmentsystem seines Autos sagen könnte: "Bitte öffne den Kofferraum" und schon schwänge die Heckklappe auf. Und zwar dank biometrischer Verifizierung ganz ohne Sorge vor unberechtigtem Zugriff.
Mit einem vom Automobilzulieferer Brose entwickelten Prototyp ist das sichere Entsperren des Fahrzeugs per Sprachsteuerung bereits in der Mache. Damit eine solche Voice-Lösung als Teil des Incar-Infotainmentsystems nicht nur technisch einwandfrei und sicher funktioniert, ist entscheidend, dass ein sprachgesteuertes Fahrzeugmodell die Sprachbefehle nur dann ausführt, wenn die/der Nutzer vom Auto als berechtigt erkannt wird – ähnlich wie wir es von der Gesichtserkennung unseres Handys oder von Fingerabdrucksensoren kennen. Dafür prüft das System die biometrischen Eigenschaften unserer Stimme. Eine biometrische Authentifizierung gleicht die Stimme auf über 150 Charakteristiken ab, um Übereinstimmungen mit dem bestimmten biometrischen Profil zu identifizieren.
Um berechtigte von unberechtigten Nutzern unterscheiden zu können, kann auch ein Cloud-basierter Provider für Sprecheridentifizierung zum Einsatz kommen. Auf der Plattform des entsprechenden Anbieters werden die Voiceprints der berechtigten Nutzer hinterlegt. Die Verifizierung erfolgt auf Basis dieser Stimmproben mittels künstlicher Intelligenz.
KI kommt – kombiniert mit Machine Learning – auch zum Einsatz, wenn das System prüft, ob die/der Sprechende zum Beispiel unter Zwang agiert. Um das Gesprochene automatisch in den Kontext einzuordnen, können mehr als 150 Parameter in Echtzeit analysiert werden. Die sogenannte Emotion AI scannt eine Aussage nuancengenau ab und kann so sogar unbewusste Stress- oder Angstsignale in der Stimme identifizieren – etwa anhand von Frequenzeigenschaften oder Sprachmodulation. Eingebunden in ein Machine-Learning-Modell unterscheidet das System so bis zu 16 Emotionen. Ist der "Stress-Test" bestanden, steht einer Türentriegelung oder einem Start des Wagens theoretisch nichts im Wege.
Wie das in der Praxis bereits funktioniert, zeigt der chinesische Fahrzeughersteller Ora bei seinem Modell "Funky Cat": Anhand der Wortwahl sowie dem Tonfall erspürt das Fahrzeug per KI-basierter Emotionserkennung die Gefühlslage und reagiert darauf mit passender Musik, Beleuchtung oder auch gezielter Ansprache.
Das Fahrzeug als digitaler Zwilling
Um die Entwicklung des Prototypen zur Fahrzeugentriegelung per Stimme hin zur Serienreife zu beschleunigen und die Effizienz zu erhöhen, kam bei Brose zunächst ein digitaler Zwilling eines Fahrzeugs zum Einsatz. Diese rein virtuelle Version lässt sich nach Stimm-Verifizierung per Sprachbefehl bedienen und die Funktionsweise des geplanten Produktes simulieren. Mithilfe eines Fahrzeugmodells, ausgestattet mit einem Microcontroller und Aktuatoren, können die Türen oder der Kofferraum des realen Autos geöffnet werden. Dieses Modell ermöglicht die tatsächliche Nutzung der Idee in der Realität.
Geplant ist weiterhin, dieses Projekt mit der Sprachschnittstelle an die Elektronik eines Testfahrzeugs zu koppeln. Dazu werden in dem Fahrzeug Mikrophone und Microcontroller verbaut, die künftig auch in der Lage sein werden, zum Beispiel Störgeräusche herauszufiltern und Feinheiten in den Akzeptanzschwellen einzustellen.
Optimale Erfahrung mit Sprachschnittstellen gewährleisten
Für eine optimale, für die/den Nutzenden bequeme Sprachsteuerung im Automobilbereich ist nicht nur eine sichere Sprachauthentifizierung entscheidend. Elementar ist auch, ob und wie die Sprachschnittstelle auf einen Befehl oder eine Anmerkung reagiert. Technisch optimieren lässt sich dies über Speech Synthesis Markup Language (SSML). SSML steuert die Aussprache, Lautstärke, Tonhöhe und Geschwindigkeit der Sprachausgabe. Diese Merkmale werden kombiniert als Parameter integriert, um zahlreiche Effekte, wie flüstern, Betonungen oder eine bestimmte Sprechart zu erzielen.
Der Grund, warum es beim Gestalten von Sprachschnittstellen verschiedenste Elemente der Sprache zu berücksichtigen gilt, liegt auf der Hand: Die Customer Experience für Zuhörer – im Fall des Incar-Infotainmentsystem für Fahrer – ist erst dann gut, wenn sie Sprachbefehle eindeutig entgegennehmen kann und in ihrer Reaktion möglichst natürlich klingt. Dank freihändiger Voice-Authentifizierung und ausgefeilter Sprachgestaltungssysteme profitieren sowohl Nutzer als auch Automobilhersteller- und -Zulieferer in puncto Customer Experience und Serviceeffizienz. Denn langfristig bereitet freihändiges, aber sicheres Authentifizieren den Weg in die Zukunft.