Zum Inhalt

UCB-Driven Utility Function Search for Multi-objective Reinforcement Learning

  • 2026
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Dieses Kapitel vertieft sich in die Komplexität des Lernens multizielgerichteter Verstärkung (MORL), wobei der Schwerpunkt auf den Herausforderungen liegt, die sich aus sich widersprechenden Zielen in der realen Steuerung und Planung ergeben. Der Text stellt UCB-MOPPO vor, eine neuartige Methode, die Erfassungsfunktionen oberer Vertrauensgrenzen (Upper Confidence Bound, UCB) mit proximaler Politikoptimierung (PPO) kombiniert, um effizient nach optimalen Skalarisationsvektoren zu suchen. Das Kapitel untersucht die Grenzen bestehender MORL-Ansätze, insbesondere im Umgang mit einer zunehmenden Anzahl von Zielen und der Granularität des Gewichtsraums. UCB-MOPPO adressiert diese Beschränkungen, indem es das Problem in Teilprobleme mit skalarer Verstärkung zerlegt und einen Surrogat-unterstützten Optimierungsansatz verwendet, um das Hypervolumen des Convex Coverage Set (CCS) zu maximieren. Die Methode wird anhand von sechs multi-objektiven Benchmark-Problemen bewertet, die eine überlegene Leistung in Bezug auf Hypervolumina und Erwartungen-Nutzen-Kennzahlen zeigen. In diesem Kapitel werden auch die Vorteile von UCB-MOPPO im Hinblick auf Recheneffizienz, Skalierbarkeit und Speicherplatzreduzierung diskutiert. Darüber hinaus hebt sie die Fähigkeit der Methode hervor, die Qualität der Pareto-Front mit minimalem Rechenaufwand zu verbessern, wodurch sie sich für ressourcenbeschränkte Umgebungen gut eignet. Der Text schließt mit Anweisungen für zukünftige Forschungen, einschließlich der Erforschung zusätzlicher Pareto-Frontqualitätsindikatoren und Suchalgorithmen für nichtlineare Nutzfunktionsräume.

Supplementary Information

The online version contains supplementary material available at https://doi.org/10.1007/978-3-032-06106-5_10.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Titel
UCB-Driven Utility Function Search for Multi-objective Reinforcement Learning
Verfasst von
Yucheng Shi
David Lynch
Alexandros Agapitos
Copyright-Jahr
2026
DOI
https://doi.org/10.1007/978-3-032-06106-5_10
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG