Skip to main content
main-content

Über dieses Buch

Künstliche Intelligenz (KI) ist heute schon in unserem Alltag präsent und wird uns zukünftig in nahezu allen Lebensbereichen begegnen – von der bildgestützten Diagnose in der Medizin über das autonome Fahren und die intelligente Maschinenwartung in der Industrie bis hin zur Sprachsteuerung im smarten Zuhause. Die Potenziale der KI sind enorm, gleichzeitig kursieren viele Mythen, Ungewissheiten und Herausforderungen, die es zu meistern gilt.
Dieses Buch adressiert daher die breite Öffentlichkeit – von interessierten Bürgerinnen und Bürgern bis hin zur Leitungsebene in Unternehmen, die ein besseres und tieferes technisches Verständnis von KI-Technologien aufbauen und deren Folgen abschätzen möchten.
In verständlicher Sprache werden mathematische Grundlagen, Begriffe und Methoden erläutert. Eine abschließende Diskussion der Chancen und Herausforderungen hilft den Leserinnen und Lesern, die Entwicklungen zu bewerten, sie zu entmystifizieren und ihre Relevanz für die Zukunft zu erkennen.

Inhaltsverzeichnis

Frontmatter

1. Was ist intelligent an Künstlicher Intelligenz?

Zusammenfassung
In der letzten Zeit ist der Begriff Künstliche Intelligenz (KI) in aller Munde. Ein System der Künstlichen Intelligenz soll in der Lage sein, seine Umwelt wahrzunehmen und sich ähnlich wie ein Mensch intelligent zu verhalten. Allerdings ist diese Definition ungenau, da der Begriff „Intelligenz“ schwer abzugrenzen ist. In diesem Kapitel werden daher einzelne Dimensionen der KI diskutiert. Die meisten KI-Systeme haben die Aufgabe, eine Eingabe (z.B. Bild) einer Ausgabe (z.B. Bildklasse) zuzuordnen. Ein- und Ausgaben werden durch Zahlenpakete repräsentiert. Diese Zuordnung wird nicht manuell programmiert, sondern anhand von Beobachtungen und Daten sukzessive angepasst und trainiert. Diesen Vorgang nennt man auch „Lernen“. 
Gerhard Paaß, Dirk Hecker

2. Was kann Künstliche Intelligenz?

Zusammenfassung
In den letzten Jahren haben Fortschritte in der Rechenleistung der Computer und die Verfügbarkeit geeigneter Programmierumgebungen und Algorithmen dazu geführt, dass man einige Teilaufgaben der Künstlichen Intelligenz in befriedigender Weise lösen kann. Dieses Kapitel bietet einen informellen Überblick über den State-of-the-Art. Besonders wichtig ist hier die Interpretation von Sensordaten, z.B. die Erkennung von Objekten in Fotos, die Diagnose von Krankheiten an Hand von Bildern oder die Transkription von gesprochener Sprache in Text. Fortschritte hat es auch bei der Analyse der Bedeutung von Sprache gegeben, z.B. bei der maschinellen Übersetzung von einer Sprache in eine andere, der Beantwortung von Fragen durch ein KI-System oder der Dialogführung durch intelligente Assistenten. Schließlich waren KI-Systeme in der Lage, menschliche Experten bei Computerspielen zu schlagen, Fahrzeuge im realen Straßenverkehr automatisch zu steuern oder auch kreative Leistungen zu vollbringen, etwa das Erfinden neuer Geschichten. Die verwendeten Techniken werden in späteren Kapiteln erläutert.
Gerhard Paaß, Dirk Hecker

3. Einige Grundbegriffe des maschinellen Lernens

Zusammenfassung
Maschinelles Lernen hat die Aufgabe, für den Nutzer relevante Zusammenhänge aus Daten zu rekonstruieren. In diesem Kapitel wird ein einfaches lineares Modell, das logistischen Regressionsmodell, formuliert, welches für beliebige Eingaben die zugehörige Ausgabe prognostiziert. Ziel ist es, die Relationen zwischen den vorhandenen Eingabe- und Ausgabegrößen in den Daten automatisch aufzufinden. Hierzu wird eine große Anzahl numerischer Parameterwerte von einem simplen Optimierungsverfahren derart Schritt für Schritt abgeändert, das sich die vorhergesagten Ausgaben sukzessive an die korrekten Ausgaben annähern. Das Kapitel beschreibt das notwendige Vorgehen in allen Einzelheiten, aber mit einem Minium an mathematischen Formeln. Die komplexeren Modelle der nachfolgenden Kapitel werden nach genau dem gleichen Schema erstellt und verwenden das untersuchte lineare Modell als einen universellen Baustein.
Gerhard Paaß, Dirk Hecker

4. Tiefes Lernen kann komplexe Zusammenhänge erfassen

Zusammenfassung
Bei komplexeren Problemem sind einfache lineare Modelle unzureichend. Ein Ausweg bieten Modelle mit mehreren nichtlinearen Schichten (Operatoren), welche beliebige Zusammenhänge zwischen Ein- und Ausgaben repräsentieren können. Dieses Kapitel beschreibt die Eigenschaften derartiger tiefer neuronaler Netze und zeigt auf, wie sich mit Hilfe des Backproagation-Verfahrens die optimalen Parameter finden lassen. Anschließend wird das Problem der Überanpassung dargestellt und wie es sich mit Regularisierungsverfahren lösen lässt. Zum Schluß wird ein Überblick über die unterschiedlichen Typen tiefer neuronaler Netze gegeben und Methoden zur Suche einer Netzwerk-Struktur diskutiert. 
Gerhard Paaß, Dirk Hecker

5. Bilderkennung mit tiefen neuronalen Netzen

Zusammenfassung
In der Bilderkennung werden automatische Verfahren gesucht, mit denen man Objekte in einem Bild oder Foto identifizieren kann. Dabei geht es einerseits um die Klassifikation der Bildobjekte und andererseits um die Bestimmung ihrer Position auf dem Bild. Die allermeisten TNN zur Bildverarbeitung sind Convolutionale Neuronale Netze (CNN). Deren Schichten enthalten einerseits kleine rezeptive Felder (Convolutions), welche über die Pixelmatrix des Eingabebildes verschoben werde. Sie sind in der Lage, lokale Bildmerkmale zu detektieren. Zum anderen werden Poolingschichten verwendet, welche die Ergebnisse lokal aggregieren. Moderne CNNs enthalten Hunderte dieser Schichten, welche sukzessive komplexere Bildmerkmale erkennen können. Sie machen oft weniger Fehler bei der Bildklassifikation als Menschen. Spezielle Varianten wurden entwickelt, um die Position von Objekten in Bildern pixelgenau zu bestimmen. Schließlich werden Modelle zu Bestimmung der Ungenauigkeit von Bildklassifikationen vorgestellt, und der Einfluss von Bildverzerrungen und bewußten Bildmanipulationen auf die Klassifikationsgenauigkeit diskutiert.
Gerhard Paaß, Dirk Hecker

6. Erfassung der Bedeutung von geschriebenem Text

Zusammenfassung
 Die allermeisten Informationen in unserer Gesellschaft sind als geschriebener Text verfügbar. Diese Kapitel beschreibt daher die Extraktion von Wissen aus geschriebenem Text. In tiefen neuronalen Netzen (TNN) werden Wörter, Sätze und Dokumente meist durch Embedding-Vektoren repräsentiert. Während einfache Verfahren zur Bestimmung von Embeddings nur zur Darstellung der Bedeutung von Wörtern verwendet werden können, haben rekurrente neuronale Netze (RNN) das Potential, die Bedeutung eines Satzes zu erfassen. Das bekannteste RNN, das Long-Short Time Memory (LSTM), kann als Sprachmodell genutzt werden. Es prognostizier das jeweils nächste Wort eines Satzes und kann dadurch die syntaktische und semantische Struktur einer Sprache erfassen. Es kann unter anderem zur Übersetzung von einer Sprache in eine andere genutzt werden. Das Transformermodell berechnet die „Korrelation“ zwischen alle Wörtern eines Satzes und kann damit kontextsensitive Embeddingvektoren ableiten, welche wesentlich feinere Bedeutungsnuancen erfassen. Das BERT-Modell baut hierauf auf. Es wird auf einen großen Textdatenbestand unüberwacht vortrainiert und dann auf einen kleinen gelabelten Datenbestand an spezielle Aufgaben angepasst. Mit diesen Modellen konnte bei vielfältigen semantischen Aufgaben mittlerweile die Leistung von Menschen für nahezu erreicht oder übertroffen werden. Weitere Abschnitte widmen sich der Beschreibung von Bildern durch Text und der Erklärung von Prognosen tiefer neuronaler Netze. 
Gerhard Paaß, Dirk Hecker

7. Gesprochene Sprache verstehen

Zusammenfassung
Diese Kapitel beschreibt Modelle zur Spracherkennung, also zur Übertragung von gesprochener Sprache in Text. Als Eingabe nutzen Spracherkenner abgeleitete Merkmale für kleine Zeitintervalle. Zur Verarbeitung werden einerseits tiefe Sequence-to-Sequence-Modelle auf LSTM- oder Transformer-Basis verwendet, welche den erkannten Text ausgeben. Als Alternative werden Convolutional Neural Networks genutzt. Ein Hybridmodell aus Sequence-to-Sequence- und CNN-Modellen ist in der Lage, einen geringeren Erkennungsfehler als Menschen zu erzielen. Bei der Erzeugung von Sprache aus Text kann WaveNet mit seinen gedehnten CNN-Schichten die Sprache eines Sprechers extrem naturgetreu reproduzieren. Mit Sprachassistenten, wie Siri und Alexa, kann der Nutzer einen Dialog führen. Anhand eines Beispiels wird der Aufbau einer Variante des Sprachassistenten Alexa aus Teilnetzen und weiteren Komponenten dargestellt. In einem Video kann man einerseits die Ereignisse in einem Video klassifizieren. Dies ist mit Varianten von raum-zeitlichen Convolution-Schichten möglich. Schwieriger ist die Beschreibung von Videos durch Untertitel, welche beispielsweise mithilfe von Transformer-Übersetzungsmodellen enerfolgen kann. In einem letzte Abschnitt wird der Einfluss von Störgeräuschen auf die Spracherkennung und das Gefahrenpotential von adversialen Angriffen diskutiert.
Gerhard Paaß, Dirk Hecker

8. Lernen von optimalen Strategien

Zusammenfassung
Bestärkungslernen ist ein Bereich des maschinellen Lernens, bei dem ein Software-Programm (Agent) zu jedem Zeitschritt eine Aktion auswählen muss mit dem Ziel, eine möglichst hohe Summe von Belohnungen über die Zeit zu erreichen. Eine Aktion wird aufgrund des jeweils aktuellen Zustands bestimmt und wirkt sich oft erst nach vielen Zeitschritten auf die Belohnung aus. Beispiele sind Spiele, Robotersteuerungen und selbstfahrende Autos. Tiefe neuronale Netze (TNN) werden hierbei benutzt, um einem Zustand eine Summe von erwartbaren Belohnungen zuzuordnen und damit die beste Aktion zu bestimmen. Sie sind besonders geeignet, weil sie die dahinterliegende Funktionen gut approximieren können. Q-Modelle prognostizieren für jedes Zustand-Aktionspaar eine erwartbare Belohnungssumme. Eine stochastische Strategie ist für Entscheidungssitutationen mit Zufallseinflüssen geeignet und bestimmt für jeden Zustand eine optimale Wahrscheinlichkeitsverteilung über den möglichen Aktionen. Für beide Modellarten werden Trainingsverfahren abgeleitet, welche aus einer Anzahl von simulierten Modellverläufen den Gradienten bestimmen und so das Modell trainieren. Im Unterschied zu bisherigen TNN werden die Trainingsdaten mithilfe einer simulierten oder realen Umgebung während des Trainings erzeugt. Schließlich werden Anwendungsbereiche des Bestärkungslernens beschrieben, wie Brettspiele, Videospiele und autonome Fahrzeuge.
Gerhard Paaß, Dirk Hecker

9. Kreative Künstliche Intelligenz und Emotionen

Zusammenfassung
Dieses Kapitel zeigt, dass tiefe neuronale Netze (TNN) auf kreative Art neuartige Bilder, Texte, Musik und Dialoge erzeugen können. Bei Bildern sind generative adversariale Netze (GAN) in der Lage, Bilder mit bestimmten Eigenschaften oder Stilmerkmalen zu generieren. Zudem können sie Bilder eines Typs in einen anderen Typ übertragen, z.B. ein Foto in ein Gemälde. Für die Erzeugung von Texten gibt es mittlerweile Sprachmodelle, welche neue komplexe Geschichten erfinden und in flüssiger Sprache formulieren können. Musik-TNN werden mit den Noten von Musikstücken trainiert und können neue Musikstücke „komponieren“, die nach Ansicht von Fachleuten eine gute Qualität erreichen. Zum Ende des Kapitels werden noch intelligente Sprachassistenten diskutiert, die in der Lage sind, die emotionale Befindlichkeit des Gesprächspartners in seinen Dialogbeiträgen zu erkennen. Sie können darauf adäquat reagieren und kreative und fokussierte Antworten geben, sodass sich der Gegenüber verstanden fühlt und motiviert ist, das Gespräch weiter zu führen. Im asiatischen Raum gibt es derartige Chatbots mit Hunderten von Millionen Nutzern.
Gerhard Paaß, Dirk Hecker

10. KI und ihre Chancen, Herausforderungen und Risiken

Zusammenfassung
Künstliche Intelligenz hat sich in den letzten Jahren als zentrales Trendthema der globalen Technologieindustrie etabliert. Sie wird realisiert durch tiefe neuronale Netze und bietet vielfältige Chancen und Innovationspotentiale, beispielsweise im Smart Home, in der Medizin und bei industriellen Anwendungen. KI hat enorme Auswirkungen auf die wirtschaftliche Entwicklung und unsere Arbeitswelt und stellt die Gesellschaft vor große Herausforderungen. Die Internetkonzerne nutzen KI auf vielfältige Weise und haben durch die Bereitstellung von Plattformen mittlerweile monopolartige Strukturen aufgebaut, welche große Bereiche der Wertschöpfung aus Europa abziehen. Es sind auch tiefgreifende Veränderungen am Arbeitsmarkt zu erwarten, welche nur durch verstärkte Aus- und Weiterbildungsanstrengungen abgefangen werden können. KI-Systeme erlauben potentiell die feinmaschige Überwachung großer Bevölkerungsteile und es sind detaillierte juristische und organisatorische Regelungen erforderlich, um die Freiheitsrechte der Bürger zu garantieren. Wissenschaftler und die Politik haben daher eine Prüfstrategie für ein „KI-Gütesiegel“ entwickelt, welche garantieren soll, dass KI-Systeme die gewünschten Ergebnisse auf nachvollziehbare Weise liefern. Zudem sollen die Systeme keine Bevölkerungsgruppe benachteiligen, robust funktionieren, den Datenschutz beachten und sicher gegen Angriffe oder bei Unfällen sein.
Gerhard Paaß, Dirk Hecker

Backmatter

Weitere Informationen

Premium Partner

    Bildnachweise