Large Language Models können natürliche Sprache verstehen und darauf reagieren. Die KI-basierten Sprachmodelle haben das Potenzial, die Kommunikation mit dem Fahrzeug zu revolutionieren.
Doktorand Can Cui von der Purdue University im automatisierten Testfahrzeug. Ein Mikrofon in der Konsole nimmt seine Befehle auf, die von LLMs in der Cloud interpretiert werden. Das Fahrzeug fährt gemäß den Anweisungen, die von den großen Sprachmodellen generiert werden.
Purdue University photo /John Underwood
Stellen Sie sich vor, Sie sagen Ihrem Fahrzeug einfach: "Ich bin in Eile", und es bringt Sie automatisch auf dem schnellsten Weg an Ihr Ziel. Ein Gespräch mit dem Auto, das so funktioniert, als würden zwei Menschen miteinander kommunizieren, ist bei fast allen Automobilherstellern das Ziel der Entwicklung – insbesondere für automatisierte Fahrzeuge. Diese müssen, um eines Tages vollständig autonom zu sein, alles verstehen, was ihre Passagiere anweisen. Auch Fragen zum Wetter oder Sehenswürdigkeiten am Zielort sollen sie beantworten können – am besten alles in einem natürlichsprachlichen Dialog.
Allerdings ist die Kommunikation zwischen menschlichem Fahrer und (automatisiertem) Fahrzeug derzeit noch ein Problem. Die Fahrzeuge haben oft Schwierigkeiten, die nuancierten, natürlichen Sprachbefehle des Menschen zu verstehen und zu interpretieren. Daher haben Ingenieure der Purdue University im Rahmen einer Studie eine Methode entwickelt, um die Interaktion zwischen automatisiertem Fahrzeug und Mensch mithilfe künstlicher Intelligenz (KI) zu optimieren. Ihr Ansatz besteht darin, große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT oder andere Chatbots in autonome Fahrsysteme einzubinden.
Grenzen der KI neu definiert: Large Language Models
Was genau sind Large Language Models? "LLMs gehören zum Technologiebereich der KI und sind darauf ausgelegt, menschliche Sprache zu verstehen und zu generieren. Sie können unter anderem Texte analysieren und erstellen, Antworten formulieren, sprachbezogene Aufgaben ausführen, Analysen im Bereich der Semantik übernehmen und Übersetzungen anfertigen", erklärt Bosch Engineering im Artikel Einsatz von KI-Methoden mit großen Sprachmodellen in der Anforderungs- und Testentwicklung aus der ATZ 1-2025. Weit verbreitet sei die Anwendung von LLMs unter anderem in sogenannten Chatbots im Kundenservice.
Im Fahrzeugkontext bedeuten LLMs, dass die Passagiere durch Sprachinteraktion auf zahlreiche Funktionen Zugriff haben: von der Navigation über die Musikauswahl bis hin zur Anrufsteuerung und der Beantwortung von Fragen. Diese sprachbasierte Fahrzeugsteuerung hat einige Vorteile, etwa ein Plus an Sicherheit, da Fahrer weniger vom Verkehrsgeschehen abgelenkt sind. Zudem macht sie die Fahrzeugbedienung intuitiver und damit komfortabler. Gleichzeitig erhöht die einfachere Bedienung die Barrierefreiheit für Menschen mit eingeschränkter Mobilität.
Natürliche, sprachbasierte Interaktion
Obwohl die heutigen automatisierten Fahrzeuge mit Funktionen ausgestattet sind, die die Kommunikation mit den Passagieren ermöglichen, müssen sich die Menschen gegenüber dem Auto viel klarer ausdrücken, als wenn sie mit einem anderen Menschen sprechen würden. Im Gegensatz dazu können LLMs auf eine menschlichere Art und Weise interpretieren und Antworten geben, da sie darauf trainiert sind, aus riesigen Mengen an Textdaten Zusammenhänge zu erkennen und im Laufe der Zeit weiter zu lernen.
"Die herkömmlichen Systeme in unseren Fahrzeugen haben eine Benutzeroberfläche, bei der man Knöpfe drücken muss, um zu vermitteln, was man möchte, oder ein Audioerkennungssystem, bei dem man sehr deutlich sprechen muss, damit das Fahrzeug einen versteht", so Ziran Wang, Assistenzprofessor an der Lyles School of Civil and Construction Engineering der Purdue University. "Die Stärke großer Sprachmodelle liegt jedoch darin, dass sie alle möglichen Dinge, die man sagt, auf natürlichere Weise verstehen können. Ich glaube nicht, dass ein anderes bestehendes System das kann", betont der Forscher. Wang ist Leiter der bereits erwähnten Studie an der Purdue University, die das personalisierte, autonome Fahren mit großen Sprachmodellen analysiert hat.
Purdue-Studie: von direkten bis zu indirekten Befehlen
In der Studie haben große Sprachmodelle kein automatisiertes Fahrzeug gesteuert, sondern das Fahren mithilfe vorhandener Fahrzeugfunktionen unterstützt. Das funktionierte so: Vor Beginn ihrer Experimente trainierten die Forscher ChatGPT mit Eingabeaufforderungen, die von direkteren Befehlen (z.B. "Bitte fahren Sie schneller") bis hin zu indirekteren Befehlen (z.B. "Mir ist gerade ein bisschen übel") reichten. Während ChatGPT lernte, auf diese Befehle zu reagieren, gaben die Forscher seinen großen Sprachmodellen Parameter vor, die es zu befolgen galt, und forderten es auf, Verkehrsregeln, Straßenverhältnisse, das Wetter und andere von den Fahrzeugsensoren erfasste Informationen zu berücksichtigen. Die Forscher machten diese großen Sprachmodelle dann über die Cloud für ein Versuchsfahrzeug auf SAE-Level 4 zugänglich.
Wenn das Spracherkennungssystem des Fahrzeugs während der Experimente einen Befehl eines Passagiers erkannte, wurde der Befehl mit den von den Forschern definierten Parametern in den großen Sprachmodellen in der Cloud interpretiert. Diese Modelle generierten dann Anweisungen für das Drive-by-Wire-System des Fahrzeugs, wie es gemäß diesem Befehl fahren soll. Die Studienteilnehmer verwendeten sowohl Befehle, die die großen Sprachmodelle gelernt hatten, als auch solche, die neu waren.
Fahrverhalten gemäß der Vorlieben der Passagiere
Das Ergebnis: Wang und sein Team stellten durch die Integration der LLMs fest, dass ein automatisiertes Auto nicht nur seine Passagiere besser verstehen, sondern auch sein Fahrverhalten an die Bedürfnisse der Fahrgäste anpassen konnte. Die Teilnehmer der Testfahrten äußerten eine geringere Unzufriedenheit mit den Entscheidungen des automatisierten Fahrzeugs im Vergleich zu typischen Erfahrungen in selbstfahrenden Autos auf SAE-Level 4 ohne LLM-Unterstützung.
Das Team verglich auch die Leistung des automatisierten Fahrzeugs mit den Ausgangswerten, die aus Daten darüber erstellt wurden, was Menschen im Durchschnitt als sichere und komfortable Fahrt betrachten würden, etwa wie schnell das Fahrzeug beschleunigt und abbremst. Die Forscher stellten fest, dass das Fahrzeug in der Studie mithilfe der LLMs alle Basiswerte übertraf, selbst wenn es auf Befehle reagierte, die die Modelle noch nicht gelernt hatten.
Hürden: Verarbeitungsgeschwindigkeit und "Halluzinationen"
Trotz der positiven Ergebnisse gibt es allerdings noch einige Herausforderungen zu meistern. So benötigten die LLMs in der Purdue-Studie durchschnittlich 1,6 s, um den Befehl eines Passagiers zu verarbeiten. Diese Verarbeitungsgeschwindigkeit gelte in nicht zeitkritischen Szenarien als akzeptabel, aber in Situationen, in denen ein automatisiertes Fahrzeug schneller reagieren muss, verbessert werden sollte, so Wang. Dies sei aber ein Problem, das große Sprachmodelle im Allgemeinen betreffe und an dem man arbeite.
Zudem würden große Sprachmodelle wie ChatGPT zu "Halluzinationen" neigen. Von einer Halluzination spricht man, wenn ein LLM falsche Informationen oder Fakten erzeugt. Zwar habe die Studie mit Sicherheitsmechanismen zur Minimierung dieses Risikos gearbeitet, jedoch blieben Halluzinationen ein Problem, das für die praktische Umsetzung angegangen werden müsse, so Wang. Dazu kommt: Bevor Fahrzeughersteller die Implementierung großer Sprachmodelle in automatisierte Fahrzeuge in Betracht ziehen könnten, sei eine behördliche Genehmigung erforderlich, so Wang.
Car-to-Car-Kommunikation mithilfe von LLMs
In der Zwischenzeit wollen Wang und sein Team weitere Experimente durchführen. Neben ChatGPT haben die Forscher andere öffentliche und private Chatbots auf der Grundlage großer Sprachmodelle bewertet, wie etwa Googles Gemini und Metas Llama-KI-Assistenten. Bisher habe ChatGPT bei den Indikatoren für eine sichere und zeiteffiziente Fahrt in einem automatisierten Fahrzeug am besten abgeschnitten. Die veröffentlichten Ergebnisse stünden aber noch aus.
Ein weiterer nächster Schritt sei die Prüfung, ob es möglich wäre, große Sprachmodelle für die Car-to-Car-Kommunikation zu nutzen, um beispielsweise an einer Kreuzung die Vorfahrt zu klären. Wangs Labor startet außerdem ein Projekt, das die Verwendung großer Sichtmodelle, die mit Bildern statt mit Text trainiert werden, untersuchen soll, um automatisierte Autos bei Fahrten unter extremen Wetterbedingungen zu unterstützen.
LLMs in der Fahrzeugentwicklung
Mit LLMs ergeben sich für die Automobilbranche noch weitere Einsatzmöglichkeiten. Neben der Integration großer Sprachmodelle in autonome Fahrzeuge können LLMs auch bei der Fahrzeugentwicklung helfen und so die Effizienz im Entwicklungsprozess optimieren.
Wie Bosch Engineering im bereits genannten ATZ-Artikel erklärt, seien LLMs "prädestiniert für den Einsatz im Requirements- und Test-Engineering, beispielsweise bei der Erstellung oder Überarbeitung von Lastenheften". Wie Pilotprojekte zeigen würden, seien "LLMs hervorragend dazu geeignet, die Satzstruktur der Requirements zu verbessern und zielgerichtet inhaltliche Optimierungsvorschläge zu erstellen", heißt es weiter. Auch seien Zeitgewinne durch Nutzung der LLMs messbar.