Skip to main content
Top

2020 | Book

Reinforcement Learning

Aktuelle Ansätze verstehen - mit Beispielen in Java und Greenfoot

insite
SEARCH

About this book

In uralten Spielen wie Schach oder Go können sich die brillantesten Spieler verbessern, indem sie die von einer Maschine produzierten Strategien studieren. Robotische Systeme üben ihre Bewegungen selbst. In Arcade Games erreichen lernfähige Agenten innerhalb weniger Stunden übermenschliches Niveau. Wie funktionieren diese spektakulären Algorithmen des bestärkenden Lernens? Mit gut verständlichen Erklärungen und übersichtlichen Beispielen in Java und Greenfoot können Sie sich die Prinzipien des bestärkenden Lernens aneignen und in eigenen intelligenten Agenten anwenden. Greenfoot (M.Kölling, King’s College London) und das Hamster-Modell (D.Bohles, Universität Oldenburg) sind einfache aber auch mächtige didaktische Werkzeuge, die entwickelt wurden, um Grundkonzepte der Programmierung zu vermitteln. Wir werden Figuren wie den Java-Hamster zu lernfähigen Agenten machen, die eigenständig ihre Umgebung erkunden.

Table of Contents

Frontmatter
Kapitel 1. Bestärkendes Lernen als Teilgebiet des Maschinellen Lernens
Zusammenfassung
In diesem Kapitel geht es um einen verhaltensorientierten Begriff des maschinellen Lernens und die Einordnung des Reinforcement Learnings in das Gebiet des maschinellen Lernens allgemein. Es wird ein grober Überblick über die verschiedenen Prinzipien des Maschinellen Lernens gegeben und erklärt wodurch sie sich vom technischen Ansatz her unterscheiden. Im Anschluss wird auf die Implementierung von Reinforcement Learning Algorithmen mit der Programmiersprache Java eingegangen.
Uwe Lorenz
Kapitel 2. Grundbegriffe des Bestärkenden Lernens
Zusammenfassung
Reinforcement Learning soll zielführende und effiziente Agenten-Steuerungen automatisch generieren. In diesem Kapitel wird beschrieben, was ein Softwareagent ist und wie er mithilfe seiner „Taktik“ (engl. policy) in einer Umgebung mehr oder weniger intelligentes Verhalten erzeugt. Der Aufbau des Grundmodells des „Bestärkenden Lernen“ wird beschrieben und der Intelligenzbegriff im Sinne einer individuellen Nutzenmaximierung vorgestellt. Außerdem werden einige formale Mittel eingeführt. Es wird dargestellt, wie mithilfe der Bellmanschen Gleichung voneinander abhängige Zustände bewertet werden und welche Rolle die „optimale Taktik“ dabei spielt.
Uwe Lorenz
Kapitel 3. Optimal entscheiden in einer bekannten Umwelt
Zusammenfassung
In diesem Abschnitt wird beschrieben, wie eine optimale Handlungsstrategie für eine Umwelt mit einer endlichen Anzahl von Zuständen und Aktionsmöglichkeiten berechnet werden kann. Sie lernen den Unterschied zwischen einer off-Policy und einer on-Policy Bewertung von Zustandsübergängen kennen. Es werden die Verfahren der Wertiteration und der iterativen Taktiksuche vorgestellt und in Übungsszenarien mit dem Java Hamster angewendet und ausprobiert. Es wird die iterative Taktiksuche, als wechselseitige Verbesserung von Bewertung und Steuerung, als verallgemeinerungsfähige Strategie zur Suche von optimalem Verhalten vorgestellt. Darüber hinaus werden die Grundlagen der Berechnung von optimalen Zügen in einem überschaubaren Brettspielszenario mit Gegenspielern beschrieben.
Uwe Lorenz
Kapitel 4. Entscheiden und Lernen in einer unbekannten Umwelt
Zusammenfassung
In diesem Kapitel wird beschrieben, wie der Agent ein unbekanntes Umweltsystem, in das er gesetzt wurde erkunden kann. Dabei entdeckt er Zustände mit Belohnungen und muss zum einen die Pfade zu diesen Zielen optimieren („Performanz verbessern“), zum anderen aber auch neue Ziele erkunden („Kompetenzen erlangen“). Hierbei muss er einen trade-off zwischen Ausbeutung und Erkundung berücksichtigen. Einerseits muss er den möglichen Lohn bereits entdeckter Ziele kassieren, andererseits die Erkundung besserer Pfade bzw. die Entdeckung neuer Ziele bewerkstelligen. Hierbei gibt es verschiedene Ansätze, zum einen zielen sie darauf ab, gemachte Erfahrungen so zu verarbeiten, dass sich der Agent unter gleichen Bedingungen künftig besser verhält „modellfreie Methoden“, zum anderen gibt es Ansätze, die darauf abzielen, Modelle, die vorhersagen können, was bei der Auswahl bestimmter Aktionen passieren würde, zu optimieren.
Uwe Lorenz
Kapitel 5. Schätzer für Zustandsbewertung und Aktionsauswahl
Zusammenfassung
In der Regel reichen die verfügbaren Ressourcen nicht aus, um Steuerung, Bewertungsfunktion oder Modell tabellarisch zu erfassen. Daher werden in diesem Kapitel parametrisierte Schätzer eingeführt, mit denen wir z. B. die Bewertung von Zuständen auch dann abschätzen können, wenn sie nicht in genau gleicher Form zuvor beobachtet worden sind. Im Besonderen wird auf die sogenannten „künstliche neuronale Netze“ eingegangen. Wir werden auch Möglichkeiten kennenlernen, mit solchen Schätzern parametrisierte Policies zu erstellen, die bei einem gegebenen Zustand eine Wahrscheinlichkeitsverteilung über die zur Verfügung stehenden Aktionen generieren.
Uwe Lorenz
Kapitel 6. Leitbilder in der Künstlichen Intelligenz
Zusammenfassung
Eine frühe wegweisende Klassifizierung von Systemverhalten publizierten Arturo Rosenblueth, Norbert Wiener und Julian Bigelow bereits 1943 in einem Artikel der Zeitschrift „Philosophy of Science“ (Rosenblueth et al. 1943). Die Veröffentlichung der drei renommierten Wissenschaftler war dazu geeignet, eine Welle von Diskussionen unter Forschern in vielen Disziplinen anzuregen, darunter Philosophen, Biologen, Neurologen und später auch unter Wissenschaftlern im Bereich der aufkommenden Computertechnologie.
Uwe Lorenz
Metadata
Title
Reinforcement Learning
Author
Uwe Lorenz
Copyright Year
2020
Publisher
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-61651-2
Print ISBN
978-3-662-61650-5
DOI
https://doi.org/10.1007/978-3-662-61651-2

Premium Partner