Top

Published in:

2024 | OriginalPaper | Chapter

5. Schätzer für Zustandsbewertung und Aktionsauswahl

Author : Uwe Lorenz

Published in: Reinforcement Learning

Publisher: Springer Berlin Heidelberg

Activate our intelligent search to find suitable subject content or patents.

search-config

AI-assisted search

Off

Zusammenfassung

In der Regel reichen die verfügbaren Ressourcen nicht aus, um Steuerung, Bewertungsfunktion oder Modell tabellarisch zu erfassen. Daher werden in diesem Kapitel parametrisierte Schätzer eingeführt, mit denen wir die Bewertung von Zuständen oder probabilistische Aktionspräferenzen abschätzen können, selbst dann, wenn sie nicht in genau gleicher Form zuvor beobachtet worden sind.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

inform now

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

inform now

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

inform now

previous chapter Entscheiden und Lernen in einer unbekannten Umwelt

next chapter Leitbilder in der Künstlichen Intelligenz

Available only for authorised users

Auch „efferente Nervenzellen“ oder „Motoneuronen“

Autor: Zoran Sevarac; Copyright 2010 Neuroph Project http://neuroph.sourceforge.net. Licensed under the Apache License, Version 2.0 (the „License“); http://www.apache.org/licenses/LICENSE-2.0. Weitere Hinweise sind in den Files des zitierten Programmcodes.

Autor: Zoran Sevarac; Copyright 2010 Neuroph Project http://neuroph.sourceforge.net. Licensed under the Apache License, Version 2.0 (the „License“); http://www.apache.org/licenses/LICENSE-2.0; Weitere Hinweise sind in den Files des zitierten Programmcodes.

S. Kakade and J. Langford. „Approximately optimal approximate reinforcement learning“. In: ICML. Bd. 2. 2002, S. 267–274.

Alpaydin E (2019) Maschinelles Lernen. 2., erweiterte Auflage. De Gruyter Studium, Berlin/Boston.

Been K, Pavlus, J (2019) A new approach to understanding how machines think. Quantamagazine. https://www.quantamagazine.org/been-kim-is-building-a-translator-for-artificial-intelligence-20190110/

Churchland PS, Sejnowski TJ (1997) Grundlagen zur Neuroinformatik und Neurobiologie. The Computational Brain in deutscher Sprache: vieweg Computational Intelligence

Frochte, J (2019) Maschinelles Lernen: Grundlagen und Algorithmen in Python. 2. Aufl. Hanser, München

Fyfe C (2007) Hebbian learning and negative feedback networks. Advanced information and knowledge processing. Springer (Advanced Information and Knowledge Processing), Dordrecht. http://gbv.eblib.com/patron/FullRecord.aspx?p=371973

Hassabis, D (2014) Deepmind artificial intelligence @ FDOT14. https://www.youtube.com/watch?v=EfGD2qveGdQ

Hebb D (1949) The Organization of Behavior, John Wiley & Sons, New York.

Kandel E (2009) Auf der Suche nach dem Gedächtnis. Die Entstehung einer neuen Wissenschaft des Geistes. Taschenbuchausg. 4. Aufl. Goldmann, München (Goldmann, 15570)

Kavukcuoglu K, Minh V, Silver D (2015) Human-level control through deep reinforcement learning. Nature. https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

Ribeiro MT, Singh S, Guestrin C (2016) „Why should I trust you?“ Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. S 1135–1144. https://arxiv.org/abs/1602.04938

Schulman J, Levine S, Abbeel P, Jordan M, Moritz P (2015) „Trust Region Policy Optimization“ Proceedings of the 32nd international conference on machine learning, PMLR 37:1889–1897

Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O (2017) „Proximal policy optimization algorithms.“ https://arxiv.org/abs/1707.06347v2

Sutton RS, Barto A (2018) Reinforcement learning. An introduction. 2., Aufl., The MIT Press (Adaptive computation and machine learning), Cambridge, MA, London

Turing A, On Computable Numbers, with an Application to the Entscheidungsproblem (1937) Proceedings of the London Mathematical Society. Band 42, ISSN 0024-6115, S 230–265. https://londmathsoc.onlinelibrary.wiley.com/doi/abs/10.1112/plms/s2-42.1.230 (Oxford Journals)

Title: Schätzer für Zustandsbewertung und Aktionsauswahl
Author: Uwe Lorenz
Publisher: Springer Berlin Heidelberg
Book: Reinforcement Learning
Print ISBN: 978-3-662-68310-1

Electronic ISBN: 978-3-662-68311-8

Copyright Year: 2024
DOI: https://doi.org/10.1007/978-3-662-68311-8_5

Springer Professional

Zusammenfassung

Please log in to get access to your license.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"

Premium Partner