2019 | OriginalPaper | Chapter
Hint
Swipe to navigate through the chapters of this book
Published in:
Statistisches und maschinelles Lernen
In diesem Kapitel geben wir eine Einführung in das Paradigma des Reinforcement Learning und verlassen gleichzeitig den Bereich des Supervised Learning. Zunächst geben wir Beispiele typischer Problemstellungen und formalisieren diese anhand von Markov-Entscheidungsprozessen. Wir führen die sogenannte optimale Strategie ein, welche eine Funktion beschreibt, deren Bestimmung im weiteren Verlauf des Kapitels im Vordergrund steht. Die Ermittlung dieser Funktion wird zunächst theoretisch betrachtet, danach werden explizite Verfahren mittels Iterationsalgorithmen formuliert (Q-Value-Iteration). Diese Verfahren werden im weiteren Verlauf des Kapitels auf die in der Praxis vorliegende Situation angepasst, was zu einigen heuristischen Abänderungen führt (Q-Learning). Die Qualität und der Lernverlauf der optimalen Strategie werden anhand von zwei wiederkehrenden Beispielen, einem Labyrinth und dem Tic-Tac-Toe-Spiel dargestellt. Im letzten Teil des Kapitels erfolgt der Übergang zu aktuellen Verfahren mittels des sogenannten Deep-Q-Learning, bei welchem beispielsweise neuronale Netzwerke als Approximationsklassen für die optimale Strategie genutzt werden.
Please log in to get access to this content
To get access to this content you need the following product:
Advertisement
- Title
- Reinforcement Learning/Bestärkendes Lernen
- DOI
- https://doi.org/10.1007/978-3-662-59354-7_8
- Author:
-
Stefan Richter
- Publisher
- Springer Berlin Heidelberg
- Sequence number
- 8
- Chapter number
- Kapitel 8