nach oben

Erschienen in:

2018 | OriginalPaper | Buchkapitel

Adversarial Multiarmed Bandit Problems in Gradually Evolving Worlds

verfasst von : Chia-Jung Lee, Yalei Yang, Sheng-Hui Meng, Tien-Wen Sung

Erschienen in: Advances in Smart Vehicular Technology, Transportation, Communication and Applications

Verlag: Springer International Publishing

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Abstract

We study the adversarial multi-armed bandit problem, in which a player must iteratively make online decisions with linear loss vectors and hopes to achieve a small total loss. We consider a natural measure on the loss vectors, called deviation, which is the sum of the distances between every two consecutive loss functions. We propose an online algorithm and the experimental results show that the proposed algorithm can achieve a small total loss when the loss functions have a small deviation.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Time Domain Acoustic Scattering from Locally Perturbed Flat Substrates

Nächstes Kapitel A Video Coloring Method Based on CNN and Feature Point Tracking

We use the notation \(\tilde{O}\left( \cdot \right) \) to hide the dependence on \(\mathrm {poly}(\log T)\) factor.

Audibert, J.-Y., Bubeck, S.: Regret bounds and minimax policies under partial monitoring. J. Mach. Learn. Rese. 11, 2635–2686 (2010)MATHMathSciNet

Audibert, J.-Y., Bubeck, S., Lugosi, G.: Minimax policies for combinatorial prediction games. In: COLT, pp. 107–132 (2011)

Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Mach. Learn. 47(2–3), 235–256 (2002)CrossRefMATH

Auer, P., Cesa-Bianchi, N., Freund, Y., Schapire, R.E.: The nonstochastic multiarmed bandit problem. SIAM J. Comput. 32(1), 48–77 (2002)CrossRefMATHMathSciNet

Bubeck, S., Cesa-Bianchi, N.: Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Found. Trends Mach. Learn. 5(1), 1–122 (2012)CrossRefMATH

Cesa-Bianchi, N., Lugosi, G.: Combinatorial bandits. J. Comput. Syst. Sci. 78(5), 1404–1422 (2012)CrossRefMATHMathSciNet

Chiang, C.-K., Yang, T., Lee, C.-J., Mahdavi, M., Lu, C.-J., Jin, R., Zhu, S.: Online optimization with gradual variations. In: COLT, pp. 6.1–6.20 (2012)

Hazan, E., Kale, S.: Better algorithms for benign bandits. J. Mach. Learn. Res. 12, 1287–1311 (2011)MATHMathSciNet

Kleinberg, R., Niculescu-Mizil, A., Sharma, Y.: Regret bounds for sleeping experts and bandits. Mach. Learn. 80(2–3), 245–272 (2010)CrossRefMATHMathSciNet

10.

Lee, C.-J., Tsai, S.-C., Yang, M.-C.: Online prediction problems with variation. In: COCOON, pp. 49–60 (2014)

11.

Neu, G., György, A., Szepesvári, C., Antos, A.: Online markov decision processes under bandit feedback. IEEE Trans. Automat. Contr. 59(3), 676–691 (2014)CrossRefMATHMathSciNet

12.

Robbins, H.: Some aspects of the sequential design of experiments. Bull. Amer. Math. Soc. 58(5), 527–535 (1952)CrossRefMATHMathSciNet

Titel: Adversarial Multiarmed Bandit Problems in Gradually Evolving Worlds
verfasst von: Chia-Jung Lee
Yalei Yang
Sheng-Hui Meng
Tien-Wen Sung
Verlag: Springer International Publishing
Buch: Advances in Smart Vehicular Technology, Transportation, Communication and Applications
Print ISBN: 978-3-319-70729-7

Electronic ISBN: 978-3-319-70730-3

Copyright-Jahr: 2018
DOI: https://doi.org/10.1007/978-3-319-70730-3_36

Springer Professional

Abstract

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"

Premium Partner