Skip to main content
Top

2024 | OriginalPaper | Chapter

5. Schätzer für Zustandsbewertung und Aktionsauswahl

Author : Uwe Lorenz

Published in: Reinforcement Learning

Publisher: Springer Berlin Heidelberg

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

In der Regel reichen die verfügbaren Ressourcen nicht aus, um Steuerung, Bewertungsfunktion oder Modell tabellarisch zu erfassen. Daher werden in diesem Kapitel parametrisierte Schätzer eingeführt, mit denen wir die Bewertung von Zuständen oder probabilistische Aktionspräferenzen abschätzen können, selbst dann, wenn sie nicht in genau gleicher Form zuvor beobachtet worden sind.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Appendix
Available only for authorised users
Footnotes
1
Auch „efferente Nervenzellen“ oder „Motoneuronen“
 
2
Autor: Zoran Sevarac; Copyright 2010 Neuroph Project http://​neuroph.​sourceforge.​net. Licensed under the Apache License, Version 2.0 (the „License“); http://​www.​apache.​org/​licenses/​LICENSE-2.​0. Weitere Hinweise sind in den Files des zitierten Programmcodes.
 
3
Autor: Zoran Sevarac; Copyright 2010 Neuroph Project http://​neuroph.​sourceforge.​net. Licensed under the Apache License, Version 2.0 (the „License“); http://​www.​apache.​org/​licenses/​LICENSE-2.​0; Weitere Hinweise sind in den Files des zitierten Programmcodes.
 
4
S. Kakade and J. Langford. „Approximately optimal approximate reinforcement learning“. In: ICML. Bd. 2. 2002, S. 267–274.
 
Literature
go back to reference Alpaydin E (2019) Maschinelles Lernen. 2., erweiterte Auflage. De Gruyter Studium, Berlin/Boston. Alpaydin E (2019) Maschinelles Lernen. 2., erweiterte Auflage. De Gruyter Studium, Berlin/Boston.
go back to reference Churchland PS, Sejnowski TJ (1997) Grundlagen zur Neuroinformatik und Neurobiologie. The Computational Brain in deutscher Sprache: vieweg Computational Intelligence Churchland PS, Sejnowski TJ (1997) Grundlagen zur Neuroinformatik und Neurobiologie. The Computational Brain in deutscher Sprache: vieweg Computational Intelligence
go back to reference Frochte, J (2019) Maschinelles Lernen: Grundlagen und Algorithmen in Python. 2. Aufl. Hanser, München Frochte, J (2019) Maschinelles Lernen: Grundlagen und Algorithmen in Python. 2. Aufl. Hanser, München
go back to reference Hebb D (1949) The Organization of Behavior, John Wiley & Sons, New York. Hebb D (1949) The Organization of Behavior, John Wiley & Sons, New York.
go back to reference Kandel E (2009) Auf der Suche nach dem Gedächtnis. Die Entstehung einer neuen Wissenschaft des Geistes. Taschenbuchausg. 4. Aufl. Goldmann, München (Goldmann, 15570) Kandel E (2009) Auf der Suche nach dem Gedächtnis. Die Entstehung einer neuen Wissenschaft des Geistes. Taschenbuchausg. 4. Aufl. Goldmann, München (Goldmann, 15570)
go back to reference Ribeiro MT, Singh S, Guestrin C (2016) „Why should I trust you?“ Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. S 1135–1144. https://arxiv.org/abs/1602.04938 Ribeiro MT, Singh S, Guestrin C (2016) „Why should I trust you?“ Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. S 1135–1144. https://​arxiv.​org/​abs/​1602.​04938
go back to reference Schulman J, Levine S, Abbeel P, Jordan M, Moritz P (2015) „Trust Region Policy Optimization“ Proceedings of the 32nd international conference on machine learning, PMLR 37:1889–1897 Schulman J, Levine S, Abbeel P, Jordan M, Moritz P (2015) „Trust Region Policy Optimization“ Proceedings of the 32nd international conference on machine learning, PMLR 37:1889–1897
go back to reference Sutton RS, Barto A (2018) Reinforcement learning. An introduction. 2., Aufl., The MIT Press (Adaptive computation and machine learning), Cambridge, MA, London Sutton RS, Barto A (2018) Reinforcement learning. An introduction. 2., Aufl., The MIT Press (Adaptive computation and machine learning), Cambridge, MA, London
Metadata
Title
Schätzer für Zustandsbewertung und Aktionsauswahl
Author
Uwe Lorenz
Copyright Year
2024
Publisher
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-662-68311-8_5

Premium Partner