Skip to main content

2024 | Buch

Reinforcement Learning

Aktuelle Ansätze verstehen – mit Beispielen in Java und Greenfoot

verfasst von: Uwe Lorenz

Verlag: Springer Berlin Heidelberg

insite
SUCHEN

Über dieses Buch

In uralten Spielen wie Schach oder Go können sich die brillantesten Spieler verbessern, indem sie die von einer Maschine produzierten Strategien studieren. Robotische Systeme üben ihre Bewegungen selbst. In Arcade Games erreichen lernfähige Agenten innerhalb weniger Stunden übermenschliches Niveau. Wie funktionieren diese spektakulären Algorithmen des bestärkenden Lernens? Mit gut verständlichen Erklärungen und übersichtlichen Beispielen in Java und Greenfoot können Sie sich die Prinzipien des bestärkenden Lernens aneignen und in eigenen intelligenten Agenten anwenden. Greenfoot (M.Kölling, King’s College London) und das Hamster-Modell (D.Bohles, Universität Oldenburg) sind einfache, aber auch mächtige didaktische Werkzeuge, die entwickelt wurden, um Grundkonzepte der Programmierung zu vermitteln. Wir werden Figuren wie den Java-Hamster zu lernfähigen Agenten machen, die eigenständig ihre Umgebung erkunden. Die zweite Auflage enthält neue Themen wie "Genetische Algorithmen" und "Künstliche Neugier" sowie Korrekturen und Überarbeitungen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Verstärkendes Lernen als Teilgebiet des Maschinellen Lernens
Zusammenfassung
In diesem Kapitel geht es um einen agenten- oder verhaltensorientierten Begriff des Maschinellen Lernens und eine allgemeine Einordnung des Reinforcement Learnings in das Gebiet. Es wird ein grober Überblick über die verschiedenen Prinzipien des Maschinellen Lernens gegeben und erklärt, wodurch sie sich vom Ansatz her unterscheiden. Im Anschluss wird auf Besonderheiten der Implementierung von Reinforcement Learning Algorithmen mit der Programmiersprache Java eingegangen.
Uwe Lorenz
Kapitel 2. Grundbegriffe des Bestärkenden Lernens
Zusammenfassung
Reinforcement Learning soll zweckmäßige und effiziente Agenten-Steuerungen automatisch generieren. In diesem Kapitel wird beschrieben, was ein Softwareagent ist und wie er mithilfe seiner Steuerung (engl. policy) in einer Umgebung mehr oder weniger intelligentes Verhalten erzeugt. Der Aufbau des Grundmodells des Verstärkenden Lernens wird beschrieben und der Intelligenzbegriff im Sinne einer behavioristischen Nutzenmaximierung vorgestellt. Außerdem werden einige formale Mittel eingeführt. Es wird dargestellt, wie mithilfe der Bellmanschen Gleichung voneinander abhängige Zustände bewertet werden und welche Rolle die „optimale Taktik“ dabei spielt.
Uwe Lorenz
Kapitel 3. Optimal entscheiden in einer bekannten Umwelt
Zusammenfassung
In diesem Abschnitt wird beschrieben, wie eine optimale Handlungsstrategie in einer Umwelt mit einer endlichen Anzahl von Zuständen und Aktionsmöglichkeiten berechnet werden kann. Sie lernen den Unterschied zwischen einer „off-Policy“- und einer „on-Policy“-Bewertung von Aktionsmöglichkeiten kennen. Es werden die beiden Ansätze „Zustandsbewertung“ und „Taktiksuche“ vorgestellt und in Übungsszenarien mit dem Java-Hamster angewendet und ausprobiert. Zudem werden wir die „Policy-Iteration“ als Kombination der beiden unterschiedlichen Ansätze kennen lernen, die sich hier auf interessante Weise ergänzen. Daraus lässt sich eine allgemeine Strategie zur Suche von optimalem Verhalten ableiten. Schließlich wird auf der erarbeiteten Grundlage die Ermittlung von optimalen Zügen in einem überschaubaren Brettspielszenario mit einem Gegenspieler vorgestellt.
Uwe Lorenz
Kapitel 4. Entscheiden und Lernen in einer unbekannten Umwelt
Zusammenfassung
In diesem Kapitel wird beschrieben, wie ein Agent ein unbekanntes Umweltsystem, in das er gesetzt wurde, erkunden kann. Dabei entdeckt er Zustände mit Belohnungen und muss zum einen die Pfade zu diesen Zielen optimieren, d. h. seine „Performanz verbessern“, zum anderen aber auch neue Ziele und Handlungsoptionen erkunden. Hierbei muss der Agent einen Kompromiss zwischen „Ausbeutung“ (Exploitation) und „Erkundung“ (Exploration) berücksichtigen. Einerseits muss er den möglichen Lohn bereits entdeckter Ziele kassieren, andererseits die Erkundung bewerkstelligen ohne zu wissen, ob sich der Abstecher ins Neuland überhaupt lohnt. Hierbei gibt es verschiedene Ansätze, die wertvollen Erfahrungen zu verarbeiten, die der Agent sammelt. Zum einen zielen sie darauf ab, diese so zu verarbeiten, dass der Agent unter gleichen Bedingungen künftig besser reagiert („Modellfreie Methoden“), zum anderen gibt es Ansätze, die darauf abzielen, Modelle zu verbessern, die vorhersagen können, was bei der Auswahl bestimmter Aktionen passieren würde. Zudem gibt es auch Ansätze, die Exploration zu optimieren. Dabei können Begriffe wie bspw. „Neugier“ oder „Langeweile“ als Inspirationsquelle dienen.
Uwe Lorenz
Kapitel 5. Schätzer für Zustandsbewertung und Aktionsauswahl
Zusammenfassung
In der Regel reichen die verfügbaren Ressourcen nicht aus, um Steuerung, Bewertungsfunktion oder Modell tabellarisch zu erfassen. Daher werden in diesem Kapitel parametrisierte Schätzer eingeführt, mit denen wir die Bewertung von Zuständen oder probabilistische Aktionspräferenzen abschätzen können, selbst dann, wenn sie nicht in genau gleicher Form zuvor beobachtet worden sind.
Uwe Lorenz
Kapitel 6. Leitbilder in der Künstlichen Intelligenz
Zusammenfassung
Der folgende Text beleuchtet den sich abwechselnden Einfluss von kybernetischen und symbolischen Ansätzen in der Geschichte der KI. Es wird die Wichtigkeit von Embodiment und Situiertheit unterstrichen und für eine Integration von modellbasierten und modellfreien Lernansätzen argumentiert. Abschließend wird über das Verhältnis von Mensch und KI reflektiert, wobei Themen wie Willensfreiheit, mögliche Beiträge von KI zur intellektuellen Weiterentwicklung der Menschheit sowie der Einfluss gesellschaftlicher Rahmenbedingungen auf die Technikentwicklung thematisiert werden.
Uwe Lorenz
Metadaten
Titel
Reinforcement Learning
verfasst von
Uwe Lorenz
Copyright-Jahr
2024
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-68311-8
Print ISBN
978-3-662-68310-1
DOI
https://doi.org/10.1007/978-3-662-68311-8

Premium Partner