Finds documents with both search terms in any word order, permitting "n" words as a maximum distance between them. Best choose between 15 and 30 (e.g. NEAR(recruit, professionals, 20)).
Finds documents with the search term in word versions or composites. The asterisk * marks whether you wish them BEFORE, BEHIND, or BEFORE and BEHIND the search term (e.g. lightweight*, *lightweight, *lightweight*).
Activate our intelligent search to find suitable subject content or patents.
Select sections of text to find matching patents with Artificial Intelligence.
powered by
Select sections of text to find additional relevant content using AI-assisted search.
powered by
(Link opens in a new window)
Zusammenfassung
Große Sprachmodelle sind für viele der Inbegriff Künstlicher Intelligenz, dabei basieren sie auf nachvollziehbaren Techniken, viel Rechenzeit und einer Unmenge an Daten. Dieses Kapitel beleuchtet, wie große Sprachmodelle funktionieren und wie sie entstehen und betrachtet die Stärken und Schwächen dieser Technologie.
Als Descartes 1641 seinen bekanntesten Ausspruch tat, lag die Vision von Künstlicher Intelligenz noch in weiter Ferne. Er dachte damals darüber nach, was das menschliche Wesen im Kern ausmacht, und entfernte dabei jede Aussage aus seinen Überlegungen, die sich anzweifeln ließ. Am Ende blieb nur übrig, dass das Zweifeln (oder Denken) selbst der entscheidende Faktor sei. Nur ein denkendes System existiert demnach wirklich.
Advertisement
Drei Jahrhunderte später war der technische Fortschritt so weit, dass es Forschern möglich erschien, dieses Merkmal auch auf elektronische Rechenmaschinen zu übertragen. Im Jahr 1955 stellten McCarthy et al. einen Antrag für ein entsprechendes Forschungsprojekt. Ihre Ziele waren nicht auf philosophische, sondern auf technische Erkenntnisse ausgelegt. Das angestrebte System wäre ihrer Meinung nach bei Projekterfolg in der Lage, selbstständig zu denken. Mit diesem Vorhaben prägten sie nicht nur den Begriff Künstliche Intelligenz (KI), sie beschrieben auch wesentliche Eigenschaften solcher Systeme. Folgende Aufzählung zeigt auf, was ein KI-System demnach ausmacht:
1.
Vernetzte Strukturen, deren Funktionsweise den menschlichen Nervenzellen nachempfunden ist, sollten zur Verarbeitung und Speicherung Anwendung finden.
2.
Mittels einer eigenen Form von Sprache sollten sie in der Lage sein, Konzepte zu benennen und zu kontextualisieren.
3.
KI-Systeme müssen sich selbst optimieren können.
4.
Sie benötigen die Fähigkeit, ihre Eingabedaten zu abstrahieren und zu generalisieren.
5.
Zufall sollte in den Entscheidungsprozess einfließen, um Kreativität abzubilden.
6.
Über ein Komplexitätsmaß muss sich die Leistungsfähigkeit dieser Systeme messen lassen.
All diese Eigenschaften finden heute in modernen KI-Systemen Anwendung. Die damals geplante Dauer des Forschungsprojekts mit zwei Monaten und einem Budget von 13.500 US-$ sollte sich jedoch aus heutiger Sicht als zu optimistisch herausstellen.
Machen wir nun einen Sprung um rund 70 Jahre, zu dem Zeitpunkt, als ein großes Sprachmodell (Large Language Model oder LLM) seine Fähigkeiten der breiten Öffentlichkeit zeigte und damit unsere Umwelt auf vielfältige Weise veränderte.
6.1 Der Urknall großer Sprachmodelle
Am 30.11.2022 veröffentlicht (OpenAI, 2022) die KI-Anwendung ChatGPT, eine Software, mit der man sich in einem interaktiven Gespräch über nahezu beliebige Themen unterhalten konnte. Egal, welche Anfragen die Nutzer stellten, das System schien sie zu verstehen und antwortete entsprechend. Ungeachtet der Rechtschreibung und Grammatik lieferte ChatGPT eine plausible Antwort. Selbst ein spontaner Wechsel der Sprache konnte ChatGPT kaum aus dem Tritt bringen. Wo es bei klassischen Suchmaschinen noch notwendig war, Links anzuklicken und die dahinterstehenden Inhalte zu bewerten, erschienen halbwegs brauchbare Antworten meistens schon nach der ersten Anfrage – und das bereits innerhalb weniger Sekunden. Den weiteren Detailgrad und Sprachstil der Konversation bestimmte der Nutzer. Augenscheinlich war das System intelligent genug, sämtliche Anfragen zu verstehen. Um die Interaktion voranzubringen, schöpfte es aus einem scheinbar riesigen Bestand an Wissen. Dass dabei mitunter falsche Informationen in Antworten einflossen, schien eine Kinderkrankheit der neuen Technologie zu sein.
Advertisement
Zu diesem Zeitpunkt gab es bereits Assistenzsysteme wie Apples Siri oder Amazons Alexa. Sie konnten Sprachbefehle entgegennehmen und befolgen, um Menschen in ihrem Alltag zu unterstützen. Für die Erfüllung ihrer Aufgaben konnten sie außerdem mit externen Ressourcen interagieren. Über programmierbare Schnittstellen waren sie so in der Lage, in der realen Welt zu agieren, beispielsweise zur Steuerung einer Heimautomatisierung. Man spricht hierbei auch von Agentensystemen (Wooldridge, 2002). Allerdings verfolgten derartige Systeme einen statischen, regelbasierten Ansatz, bei dem ein Nutzer feste Formulierungen nutzen musste, um die gewünschten Aktionen kenntlich zu machen. Eine wirkliche Interaktion zwischen Nutzer und System war nicht vorgesehen und ihre Flexibilität somit deutlich eingeschränkt.
ChatGPT hingegen erlaubte es nicht nur, Anfragen zu stellen und Antworten zu erhalten, es schien auch ein begrenztes Erinnerungsvermögen zu haben. Es erlaubte Nutzern beispielsweise, Rückfragen zu stellen, genauere Erklärungen zu erbitten und Texte umformulieren zu lassen. Selbst einfacher Computerprogrammcode ließ sich mit ChatGPT erstellen – iterativ und ohne dass der Nutzer selbst über Programmierkenntnisse verfügen musste. Im Gegenteil, all das war ohne die Verwendung spezieller Sprachsyntax oder -konstrukte möglich. Das System erweckte den Eindruck, selbstständig denken zu können, und tat dies in einem Ausmaß, das weit über alles Bisherige hinausging. Ein wahrer Durchbruch in Sachen Benutzbarkeit.
Die öffentliche Wahrnehmung war entsprechend: Nach nur zwei Monaten verzeichnete der Dienst bereits über 100 Mio. aktive Nutzer (TheGuardian, 2023). Das Rennen um die Marktführerschaft hatte begonnen, und große Sprachmodelle waren im Mainstream angekommen. Der Suchmaschinengigant Google sah dementsprechend sein Geschäftsmodell in Gefahr und versuchte, mit den KI-Systemen Bard und später Gemini nachzuziehen (Manyika & Hsiao, 2024). Microsoft hingegen hatte sich bereits im Vorfeld für eine Partnerschaft mit OpenAI und einem umfänglichen Investment in die Firma hinter ChatGPT entschieden (Microsoft, 2021).
Im Hauptteil dieses Kapitels wenden wir uns der Funktionsweise dieser neuartigen Systeme zu, betrachten das Training dieser Modelle als nötige Vorarbeit und werfen einen Blick auf typische Anwendungen.
6.2 Funktionsweise
Um zu verstehen, wie ein LLM zu seinen Ergebnissen kommt, wird das folgende Szenario betrachtet. Ein Nutzer stellt über eine Eingabeaufforderung eine textuelle Anfrage an das System: „Nennen Sie eine englische Königin!“
Vermutlich kommt den meisten Menschen bei dieser Aufforderung die Antwort Königin Elizabeth II in den Sinn. Aber wie löst ein LLM diese Aufgabe? Große Sprachmodelle nutzen eine Transformer-Architektur, für die das Paper „Attention Is All You Need“ (Vaswani et al., 2017) die wissenschaftliche Grundlage lieferte. Bei einer Anfrage werden die in Abb. 6.1 dargestellten Prozessschritte durchlaufen.
Die nachfolgende Aufzählung erläutert die Prozessschritte 1 bis 9 aus Abb. 6.1 näher. Auf alle hervorgehobenen Fachbegriffe wird im Anschluss detaillierter eingegangen.
1.
Der Nutzer stellt eine Anfrage in Form von Text an das Sprachmodell.
2.
Die textuelle Anfrage wird in Tokens umgewandelt und einem Encoder übergeben.
3.
Der Encoder bezieht den Kontext der Anfrage ein.
4.
Aus den Tokens der Anfrage und dem Kontext berechnet der Encoder positionsabhängige Embeddings.
5.
Ein Decoder berechnet eine Wahrscheinlichkeitsverteilung für das nächste Ausgabetoken.
6.
Aus der Wahrscheinlichkeitsverteilung wird ein Token ausgewählt (sampling).
7.
Dieses Token wird in Textform an den Nutzer ausgegeben.
8.
Das Ausgabetoken wird auch an den Decoder weitergegeben und der Vorgang ab Schritt 5 wiederholt.
9.
Ein Abbruch erfolgt, wenn ein Stop-Token generiert oder das Token-Limit für die Anfrage erreicht wird.
Aus den Prozessschritten ist ersichtlich, dass ein Sprachmodell als grundlegende Anforderung Texte als Eingabe unterstützen muss. Nur wenn das Modell in der Lage ist, diese Eingaben zu „verstehen“, kann es sinnvolle Antworten generieren.
Textverständnis
Das Verständnis von Texten durch ein LLM wird mithilfe zweier essenzieller Techniken erreicht. Erstens werden Tokens genutzt, um semantische Einheiten abzubilden. Zweitens erfasst ein Encoder die Bedeutung eines Textabschnitts in Form einer hochdimensionalen Einbettung (Embedding).
Tokens
Buchstaben, Silben und Worte tragen für uns Menschen Bedeutungen in sich. Wir erlernen sie in frühester Kindheit mit unserer Muttersprache und setzen dieses Lernen ein Leben lang fort. Computer hingegen speichern Texte meist zeichenweise kodiert ab. Dabei wird jedem Zeichen genau ein Zahlenwert zugeordnet. Dem Satz „Nennen Sie eine englische Königin!“ entspricht diese ASCII-Kodierung:
Dieses Format eignet sich im Allgemeinen zur Speicherung von Texten, ist aber für eine Verarbeitung in KI-Anwendungen nicht geeignet. Da KI-Anwendungen immense Datenmengen verarbeiten, empfiehlt sich eine kompaktere Speicherung der Daten. Weiterhin transportiert jedes einzelne Zeichen in dieser Darstellungsform kaum Information (Shannon, 1948). Um beide Probleme zu adressieren, fasst man häufige Sequenzen von Zeichen zusammen und kodiert sie gemeinsam in einem Wert, dem sogenannten Token.
Die Menge unterschiedlicher Tokens, die von einem Modell verarbeitet werden kann, bildet dessen Vokabular ab. Je größer das Vokabular eines Sprachmodells ist, desto genauer kann es Texte interpretieren. Derzeit verfügen LLMs über ein Vokabular zwischen 32.000 (Mixtral8x7b) (Jiang et al., 2024) und fast 200.000 (GPT-4o) (Yang et al., 2024) unterschiedlicher Tokens. Kodiert man unseren Beispielsatz, so erhält man:
N
ennen
Sie
eine
engl
ische
Kön
igin
45
46167
4006
4047
82821
5591
55129
6489
So kann eine Reduktion von 32 auf 7 Einzelwerte erreicht werden. Die Tokens repräsentieren außerdem eine höhere Ebene der Semantik als die vorher angewendete ASCII-Kodierung. Manche Tokens sind sogar identisch mit dem, was wir als Silben und Worte verstehen.
Kontext und Encoder
Wollen wir in unserer Anfrage statt nach einer englischen Königin lieber nach einer Königin von Spanien fragen, reicht es, das Token 82821 („engl“) durch das Token 19861 („span“) auszutauschen. Es stellt sich die Frage, wie das Modell nun auf diese Änderung sinnvoll reagieren kann und entsprechend unserer Erwartung eine spanische Königin als Antwort nennt.
Der aktuell verwendete Lösungsansatz hierfür stammt aus dem bereits erwähnten Paper „Attention Is All You Need“ (Vaswani et al., 2017) und dem darin vorgestellten Aufmerksamkeitsmechanismus. Bei diesem werden Tokens durch drei hochdimensionale Vektorrepräsentationen angereichert – den sogenannten „key“ (K), „queue“ (Q) und „value“ (V) Vektoren. Über diese Vektoren kodiert das Sprachmodell die unterschiedlichen möglichen Bedeutungen jedes einzelnen Tokens abhängig von umliegenden Tokens. Hieraus berechnet das Sprachmodell die Gesamtbedeutung der Anfrage in Form einer hochdimensionalen, positionsabhängigen Einbettung. Analog ziehen wir Menschen Worte, Sätze, Paragrafen und ganze Texte als Kontext zur Ermittlung der Bedeutung einzelner Textabschnitte heran. Die Softwarekomponente, die diesen Prozess durchführt, nennt sich „Encoder“.
Das Attention-Verfahren ist eine Weiterentwicklung der Vektorisierung von Worten (Mikolov et al., 2013) und ermöglicht es, mit Tokens zu rechnen. So kann der Bezug zu „England“ abgezogen und der zu „Spanien“ addiert werden, und wir erhalten das gewünschte Ergebnis. In diesen Prozess bezieht das Sprachmodell neben der aktuellen Anfrage auch den gesamten Chatverlauf mit ein. Wurde beispielsweise mit dem Sprachmodell bereits über historische Werke des frühen 20. Jahrhunderts diskutiert, so wird die Antwort auf die englische Variante des Beispielsatzes vermutlich nicht „Elizabeth II“, sondern „Queen Victoria“ lauten.
Wie viele Tokens dabei berücksichtigt werden können, gibt die maximale Kontextlänge des Modells an. Sie liegt bei aktuellen Modellen zwischen 8192 (Mistral) und 200.000 Tokens (Claude 3.5 Sonnet). Speziell auf lange Kontexte optimierte Modelle, wie Googles Gemini 1.5 Pro, kommen auf eine Kontextlänge von 2 Mio. Tokens. Je mehr Kontext von den Modellen berücksichtigt werden kann, desto besser ist auch ihr Erinnerungsvermögen; allerdings hat jedes einzelne Token auch einen geringeren Einfluss auf die jeweilige Anfrage.
Texterzeugung
Ein LLM kann während einer Konversation Antworten unterschiedlicher Länge generieren, welche deutlich über den Namen einer historischen Person hinausgehen. Technisch betrachtet ist diese Texterzeugung die Weiterführung eines Tokenstroms. Abhängig von einer Startsequenz berechnet das KI-Modell mithilfe eines Decoders das nächste Token. Betrachten wir diese Komponente nun genauer.
Decoder
Die Aufgabe des Decoders besteht darin, eine Wahrscheinlichkeitsverteilung für Ausgabetokens zu errechnen. Diese Tokens müssen gleichzeitig zur Anfrage und zum bisher erzeugten Tokenstrom passen. In die Berechnung gehen daher sowohl die Embeddings des Encoders und damit der Kontext inklusive Anfrage als auch der bisher erzeugte Tokenstrom ein. Initialisiert wird dieser Vorgang typischerweise mit einem Start-Token. Aus der erstellten Wahrscheinlichkeitsverteilung wird dann ein Token gewählt, ausgegeben und an den Tokenstrom angehängt. Im Anschluss wird dieser Prozess so lange mit dem neuen Tokenstrom wiederholt, bis ein spezielles Stop-Token selektiert oder die maximale Ausgabelänge erreicht wurde.
Sampling
Die Funktionalität des Decoders beinhaltet, wie beschrieben, das Auswählen eines Tokens aus der Wahrscheinlichkeitsverteilung. Genau dieses Token wird dann zur Ausgabe hinzugefügt. Bezeichnet wird dieser Auswahlschritt als Sampling. Dabei soll auch Raum für „Kreativität“ vorhanden sein, weshalb nicht einfach das Token mit der höchsten Wahrscheinlichkeit gewählt wird. Stattdessen wird aus einer gewichteten Menge möglicher Tokens eines gezogen. Dieser Prozess lässt sich durch unterschiedliche Parameter beeinflussen:
Temperatur
Der Begriff „Temperatur“ ist der Physik entlehnt. Sie wirkt sich maßgeblich auf die Kreativität des Sprachmodells aus, indem sie die Wahrscheinlichkeitsverteilung der Tokens beeinflusst. Je höher die gewählte Temperatur liegt, desto höher werden unwahrscheinliche Tokens gewichtet. Eine niedrige Temperatur hingegen verstärkt Tokens mit hoher Wahrscheinlichkeit in ihrer Gewichtung. Abb. 6.2 zeigt die Auswirkung unterschiedlicher Temperaturen auf die resultierende Wahrscheinlichkeitsverteilung.
Bei der Verwendung dieses Parameters werden nur die k wahrscheinlichsten Tokens berücksichtigt (Kool et al., 2019).
Top-p
Limitiert die Auswahlmöglichkeit auf die wahrscheinlichsten Tokens, so dass die minimale Anzahl an Tokens mit einer kumulativen Wahrscheinlichkeit von mindestens p gegeben ist (Holtzman et al., 2020).
Min-p
Limitiert die Auswahlmöglichkeit auf Tokens mit einer Wahrscheinlichkeit von mindestens p (Nguyen et al., 2024). Tokens mit einer Wahrscheinlichkeit kleiner p werden ignoriert (s. Abb. 6.3).
Der Zwischenschritt über die Wahrscheinlichkeitsverteilung ermöglicht es, bei ein und derselben Anfrage unterschiedliche Antworten vom System zu erhalten.
Halluzination
Kreativität und Datentreue gehen nicht immer einher. In großen Sprachmodellen werden nur statistische Korrelationen zwischen Tokens in den Trainingsdaten, aber keine Kausalitäten erfasst. Dies sorgt dafür, dass plausible und oftmals auch richtige Texte erzeugt werden können, birgt aber auch das Risiko der Halluzination. Hierbei erzeugt das Sprachmodell Texte, die zwar plausibel, aber inhaltlich falsch sind. Gerade bei Themen, die in den Trainingsdaten unterrepräsentiert oder nicht enthalten sind, tritt dies oftmals auf. Bei dem Modell bekannten Themen ist es deutlich seltener der Fall, das Risiko besteht aber immer (Xu et al., 2024). Durch Modifikation der Werte für Temperatur, Top-k, Top-p, Min-p und weitere lässt sich im Idealfall ein Kompromiss zwischen Kreativität und Datentreue finden. Ein einfaches und verlässliches Vorgehen ist dies jedoch nicht.
6.3 Training
Im vorherigen Abschnitt wurden die Verfahren zur Beantwortung von Anfragen und dem Fortführen einer Konversation zwischen Nutzer und Modell erläutert. Nun stellt sich die Frage, wie ein Modell mit derartigen Fähigkeiten erstellt werden kann.
Bei großen Sprachmodellen handelt es sich um neuronale Netze mit mehreren Milliarden Neuronen (auch Parameter genannt). Diese Neuronen tragen die Gewichte für ein immenses nichtlineares Gleichungssystem, dessen Berechnung zu einer Wahrscheinlichkeitsverteilung und schlussendlich zu Tokens führt.
Da es bisher kein bekanntes Verfahren gibt, solche Gleichungssysteme effizient zu lösen, wählt man hier ein anderes Vorgehen. Man sucht Gewichte, bei denen sich bekannte Daten möglichst gut reproduzieren lassen, und passt sie dann iterativ an, so dass die Reproduktion immer exakter wird. Diesen Vorgang nennt man Training, und es verläuft in folgenden Teilschritten (s. Abb. 6.4):
1.
Aus den Trainingsdaten wird eine Textsequenz zufällig ausgewählt.
2.
Ein Teil der Textsequenz wird dem Encoder als Kontext zur Verfügung gestellt.
3.
Der Rest der Textsequenz wird dem Decoder zur Vervollständigung vorgelegt. Dabei wird vom Ende her ein Teil der Tokens maskiert, so dass sie im Trainingsprozess verfügbar, dem Encoder aber unbekannt sind.
4.
Der Encoder stellt die Embeddings des Kontextes dem Decoder zur Verfügung.
5.
Aus den Embeddings und der maskierten Tokensequenz berechnet der Decoder die Wahrscheinlichkeitsverteilung für ein maskiertes Token.
6.
Es wird ein Fehler berechnet, der beschreibt, wie stark die Wahrscheinlichkeitsverteilung vom tatsächlich vorhandenen Token abweicht.
7.
Der Fehler wird durch das Modell zurückpropagiert. Dabei werden die Gewichte so angepasst, dass der Fehler minimiert wird.
8.
Die Anpassungen finden im Decoder und Encoder statt.
9.
Dies wird iterativ für die weiteren maskierten Tokens durchgeführt.
Anschließend wird dieser Prozess mit den veränderten Gewichten wiederholt. Dabei sollten die berechneten Fehler geringer werden.
Das Problem des Overfittings, bei dem neuronale Netze ihre Trainingsdaten zu genau erlernen und dann nicht mehr generalisieren, versucht man durch die Verwendung sehr vieler Trainingsdaten zu bekämpfen.
Trainingsdaten
Für das Training spielt es heutzutage kaum mehr eine Rolle, in welcher Sprache die Trainingsdaten gehalten sind. Sie werden stets als Abfolge von Tokens betrachtet. Solange genug Daten in den unterschiedlichen Sprachen enthalten sind, wird das große Sprachmodell die Grundzüge der jeweiligen Sprache erlernen. Auch die grammatikalischen Besonderheiten benötigen keiner eigenen Auszeichnung. Aufgrund der verwendeten Menge an Trainingsdaten und der großen Anzahl an Neuronen kann der Aufmerksamkeitsmechanismus des LLM auch die jeweilige Grammatik hinreichend gut erlernen.
Multilingualität ist somit für LLMs keine Herausforderung mehr – auf zuvor unbekannte Daten sinnvolle Antworten zu liefern jedoch schon. Diese Fähigkeit, McCarthys Punkt 4, nennt man auch „Generalisieren“. Der Gegenspieler dazu ist das sogenannte „Overfitting“. Bei Letzterem lernt das neuronale Netz die im Training gezeigten Daten auswendig und kann nur diese reproduzieren. Je größer ein neuronales Netz ist, desto wahrscheinlicher wird Overfitting (Salman & Liu, 2019). Um Overfitting zu umgehen, werden riesige Datensätze verwendet, etwa der FineWeb-Datensatz (Penedo et al., 2024).
So wurden für das Training von „Llama3 405B“ etwa 15.6 · 1012 Tokens genutzt (Dubey et al., 2024). Aufgrund dieser umfangreichen Eingangsdaten ist der Trainingsprozess enorm rechenintensiv. Laut Angaben von Meta (Dubey et al., 2024) kamen zum Training ihres „Llama3 405B“ LLM über 16.000 Nvidia H100-Grafikkarten zum Einsatz. Jede dieser Grafikkarten benötigt rund 700 Watt. Für einen Durchgang rechneten die 16.000 Karten über einen Zeitraum von 54 Tagen, was zu einem Energiebedarf von 14,5 GWh führte.
Fehlerkorrektur und LoRA
Das vollständige Neutrainieren von Sprachmodellen ist mit enormem Rechenbedarf verbunden. Somit wird eine effizientere Lösung für kleinere Anpassungen oder Fehlerkorrekturen benötig, anstatt das Modells vollständig neu zu trainieren.
Das Trainieren des Sprachmodells wirkt sich ausschließlich auf die Gewichte der einzelnen Parameter aus. Folglich können Änderung an der Funktionsweise des Sprachmodells auch durch direkte Modifikation der Gewichte erfolgen. Um diese Modifikation durchzuführen, benötigt man allerdings eine Korrekturmatrix, die dieselbe Dimensionalität wie die initiale Gewichtsmatrix aufweist. Dieser Umstand allein macht eine Modifikation und ein nachgelagertes Persistieren des Modells auf Basis einer derartigen Korrekturmatrix enorm aufwendig.
Die Low-Rank Adaptation (kurz LoRA) (Hu et al., 2021) nutzt die Tatsache, dass sich eine n x m -Matrix aus dem Produkt einer n x r -Matrix und einer r x m -Matrix berechnen lässt. r wird hier als Rang bezeichnet. Dieser beeinflusst, wie feingranular sich einzelne Werte der Matrix steuern lassen. Gegeben sei beispielsweise ein 10 Mrd. (1010) Parameter großes neuronales Netz, welches durch eine 100.000 × 100.000 -Matrix definiert wird. Für eine Korrektur-Matrix mit identischer Dimensionalität, abgebildet durch ein Rang-5-LoRA, bedarf es also einer 100.000 × 5 -Matrix und einer 5 × 100.000 -Matrix und damit insgesamt 1 Mio. (106) Parameter. Dies mag immer noch umfangreich klingen, ist aber lediglich ein Zehntausendstel der ursprünglichen Größe des Sprachmodells und damit wesentlich effizienter zu berechnen und zu speichern.
Beim Laden des Sprachmodells werden die LoRAs dann ausmultipliziert und zum initialen Modell hinzuaddiert. Dabei lassen sich auch mehrere LoRAs nacheinander anwenden; das effektiv verwendete Modell entspricht dem initial trainierten Modell plus eventueller Anpassungen durch LoRAs.
Somit ist es möglich, Änderungen an der Funktionsweise des Modells vorzunehmen, ohne das Sprachmodell von Grund auf neu trainieren zu müssen.
Finetuning
Nach dem initialen Training ist das KI-Modell bereits dazu in der Lage, Text (in Form von Tokens) entgegenzunehmen und neue plausible Sequenzen zu erzeugen. Die praktische Erfahrung zeigt allerdings, dass diese Texte oft noch einer weiteren Verbesserung bedürfen. Sie halten sich häufig nicht an ethische und moralische Normen (sog. Alignment) und lassen sich auch schwer auf Nischenthemen anwenden.
Betreiber großer Sprachmodelle haben aber ein Interesse daran, dass ethische und moralische Normen eingehalten werden, oder erfordern Detailtreue in speziellen Themenbereichen. Um dem Sprachmodell diese Fähigkeit anzutrainieren, werden weitere Trainingsschritte durchgeführt (vgl. Abb. 6.5).
1.
Nutzer stellen problemspezifische Anfragen an das Modell.
2.
Das Sprachmodell generiert Antworten und legt diese den Nutzern vor.
3.
Nutzer geben Feedback und bewerten dabei die Richtigkeit der Aussagen oder deren ethische/moralische Implikationen.
4.
Das Sprachmodell wird nun basierend auf dem Feedback optimiert.
Das beschriebene Verfahren wird mit vielen Nutzern und Anfragen durchlaufen und als „Reinforcement Learning with Human Feedback“ (RLHF) bezeichnet. Über die bereits erwähnten Ziele hinaus wird es zur kontinuierlichen Weiterentwicklung der Systeme eingesetzt. Aufgrund der Einbindung von Menschen ist dieser Schritt nicht vollständig automatisierbar und entsprechend kostenintensiv.
Bemessung der Leistungsfähigkeit
Die Leistungsfähigkeit neuronaler Netze wird heutzutage in der Anzahl an Neuronen gemessen. Während kleinere Vertreter der großen Sprachmodelle etwa 1 Mrd. Parameter groß und für den Einsatz auf mobilen Endgeräten optimiert sind, können größere Vertreter mit erweitertem Funktionsumfang auch über 400 Mrd. Parameter umfassen (Meta, 2024). Die Parameter sind dabei typischerweise 16-Bit-Fließkommazahlen (bf16) und werden, wie bereits erörtert, in Form einer Matrix vorgehalten.
6.4 Anwendung
Für große Sprachmodelle gibt es eine Vielzahl von Anwendungsfällen. Sie können dafür genutzt werden, große Datenmengen zu durchsuchen, und dabei mittels Retrieval Augmented Generation (Lewis et al., 2021) auch an eigene Datenbestände angeschlossen werden. Sie finden bei der Übersetzung von Texten und als Assistenzsysteme beim Programmieren Anwendung (Peng et al., 2023). Auch bei der Erstellung von Bildern mittels KI kommen Bestandteile großer Sprachmodelle zum Einsatz (Radford et al., 2021). Als Agentensysteme (Wooldridge, 2002) werden sie genutzt, um Sprache entgegenzunehmen und dann andere Dienste zu steuern. Selbst die Mensch-zu-Mensch-Interaktion wird an einigen Stellen mit LLMs automatisiert, beispielsweise beim Social Engineering durch Angreifer oder als Ersatz für Menschen in Call Centern (Wulf & Meierhofer, 2024). Im Verlauf des Buches werden weitere Anwendungsfälle detailliert vorgestellt.
6.5 Eigene Meinung
Mit großen Sprachmodellen ist es gelungen, Systeme zu schaffen, die Daten auf einem noch nie dagewesenen Niveau für uns nutzbar machen. Derartige Systeme erfüllen alle Kriterien, die sich McCarthy et al. schon 1955 für denkende Systeme überlegt haben:
1.
Neuronale Netze mit Billionen von Parametern werden zur Verarbeitung und Speicherung verwendet.
2.
Sie nutzen mit Embeddings eine eigene Form von Sprache, mit der sie Konzepte benennen und zueinander in Beziehung bringen können.
3.
Sie optimieren sich selbst, indem sie ihre eigenen Trainingsdaten erschaffen.
4.
Sie abstrahieren von ihren Eingangsdaten zu Konzepten und generalisieren über Sprachen und Themengebiete hinweg.
5.
Sie simulieren Kreativität, indem sie Zufall in den Samplingprozess einfließen lassen.
6.
Ihre Leistungsfähigkeit ist über ihr Vokabular, die Anzahl ihrer Parameter und die Kontextlängen messbar.
Doch haben wir nun Systeme geschaffen, die Descartes’ Anspruch an ein zweifelndes (oder denkendes) System erfüllen, ein System, das „ist“? Und ist das an dieser Stelle überhaupt wichtig?
Mit LLMs erleben wir Systeme, die, wenn sie auch nicht „sind“, zumindest doch „da sind“ und auch „da bleiben“ werden. Nicht weil sie denken könnten, sondern
weil sie nützlich sind,
weil sie es uns erlauben, einen Einblick in Themen zu erhalten, ohne dafür jahrelang studiert zu haben,
weil sie es uns ermöglichen, mit anderen Menschen in deren Sprache zu kommunizieren, ohne diese erst mühsam lernen zu müssen,
weil durch sie Tätigkeiten automatisiert werden können, die uns nur frustrieren würden, und
weil sie es uns erlauben, unsere eigene Kreativität neu auszuleben.
Diese Systeme sind nicht fehlerfrei und werden es auch nie sein. Korrelation ist nicht Kausalität. Ein rein statistisches Modell über das gemeinsame Auftreten von Zeichenfolgen kann nicht „verstehen“, nur wiedergeben.
Die Gesellschaft kann sich dieser Systeme nicht mehr entledigen; sie muss lernen, mit ihnen zu leben, ohne von ihnen abhängig zu werden. Wir müssen lernen, damit zu leben, dass diese Technologie für Gutes und Böses genutzt wird. Dies ist bei jeder Technologie der Fall. KI-Systeme werden nicht den gesunden Menschenverstand ersetzen können. Sie sind Werkzeuge, und wir müssen lernen, sie effizient und effektiv zu nutzen.
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung - Nicht kommerziell - Keine Bearbeitung 4.0 International Lizenz (http://creativecommons.org/licenses/by-nc-nd/4.0/deed.de) veröffentlicht, welche die nicht-kommerzielle Nutzung, Vervielfältigung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Die Lizenz gibt Ihnen nicht das Recht, bearbeitete oder sonst wie umgestaltete Fassungen dieses Werkes zu verbreiten oder öffentlich wiederzugeben.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist auch für die oben aufgeführten nicht-kommerziellen Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Kool, W., et al. (2019). Stochastic Beams and where to find them: The Gumbel-Top-k Trick for sampling sequences without replacement. https://arxiv.org/abs/1903.06059. Zugegriffen am 28.09.2024.
Lewis, P., et al. (2021). Retrieval-augmented generation for knowledge-intensive NLP tasks. https://arxiv.org/abs/2005.11401. Zugegriffen am 29.09.2024.
Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. https://arxiv.org/abs/1301.3781. Zugegriffen am 22.09.2024.
Nguyen, M., et al. (2024). Min P Sampling: Balancing creativity and coherence at high temperature. https://arxiv.org/abs/2407.01082. Zugegriffen am 28.09.2024.
Penedo, G., et al. (2024). The FineWeb Datasets: Decanting the web for the finest text data at scale. https://arxiv.org/abs/2406.17557. Zugegriffen am 01.10.2024.
Peng, S., et al. (2023). The impact of AI on developer productivity: Evidence from GitHub Copilot. https://arxiv.org/abs/2302.06590. Zugegriffen am 29.09.2024.
Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. https://arxiv.org/abs/2103.00020. Zugegriffen am 29.09.2024.
Salman, S., & Liu, X. (2019). Overfitting mechanism and avoidance in deep neural networks. https://arxiv.org/abs/1901.06566. Zugegriffen am 01.10.2024.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27.
Wulf, J., & Meierhofer, J. (2024). Exploring the potential of large language models for automation in technical customer service. https://arxiv.org/abs/2405.09161. Zugegriffen am 29.09.2024.
Xu, Z., et al. (2024). Hallucination is Inevitable: An Innate limitation of large language models. https://arxiv.org/abs/2401.11817. Zugegriffen am 29.09.2024.
Yang, J., et al. (2024). Large Language Model Tokenizer Bias: A Case Study and Solution on GPT-4o. https://arxiv.org/abs/2406.11214. Zugegriffen am 28.09.2024.