Skip to main content

2018 | OriginalPaper | Buchkapitel

Adversarial Multiarmed Bandit Problems in Gradually Evolving Worlds

verfasst von : Chia-Jung Lee, Yalei Yang, Sheng-Hui Meng, Tien-Wen Sung

Erschienen in: Advances in Smart Vehicular Technology, Transportation, Communication and Applications

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We study the adversarial multi-armed bandit problem, in which a player must iteratively make online decisions with linear loss vectors and hopes to achieve a small total loss. We consider a natural measure on the loss vectors, called deviation, which is the sum of the distances between every two consecutive loss functions. We propose an online algorithm and the experimental results show that the proposed algorithm can achieve a small total loss when the loss functions have a small deviation.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
We use the notation \(\tilde{O}\left( \cdot \right) \) to hide the dependence on \(\mathrm {poly}(\log T)\) factor.
 
Literatur
1.
Zurück zum Zitat Audibert, J.-Y., Bubeck, S.: Regret bounds and minimax policies under partial monitoring. J. Mach. Learn. Rese. 11, 2635–2686 (2010)MATHMathSciNet Audibert, J.-Y., Bubeck, S.: Regret bounds and minimax policies under partial monitoring. J. Mach. Learn. Rese. 11, 2635–2686 (2010)MATHMathSciNet
2.
Zurück zum Zitat Audibert, J.-Y., Bubeck, S., Lugosi, G.: Minimax policies for combinatorial prediction games. In: COLT, pp. 107–132 (2011) Audibert, J.-Y., Bubeck, S., Lugosi, G.: Minimax policies for combinatorial prediction games. In: COLT, pp. 107–132 (2011)
3.
Zurück zum Zitat Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Mach. Learn. 47(2–3), 235–256 (2002)CrossRefMATH Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Mach. Learn. 47(2–3), 235–256 (2002)CrossRefMATH
4.
Zurück zum Zitat Auer, P., Cesa-Bianchi, N., Freund, Y., Schapire, R.E.: The nonstochastic multiarmed bandit problem. SIAM J. Comput. 32(1), 48–77 (2002)CrossRefMATHMathSciNet Auer, P., Cesa-Bianchi, N., Freund, Y., Schapire, R.E.: The nonstochastic multiarmed bandit problem. SIAM J. Comput. 32(1), 48–77 (2002)CrossRefMATHMathSciNet
5.
Zurück zum Zitat Bubeck, S., Cesa-Bianchi, N.: Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Found. Trends Mach. Learn. 5(1), 1–122 (2012)CrossRefMATH Bubeck, S., Cesa-Bianchi, N.: Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Found. Trends Mach. Learn. 5(1), 1–122 (2012)CrossRefMATH
7.
Zurück zum Zitat Chiang, C.-K., Yang, T., Lee, C.-J., Mahdavi, M., Lu, C.-J., Jin, R., Zhu, S.: Online optimization with gradual variations. In: COLT, pp. 6.1–6.20 (2012) Chiang, C.-K., Yang, T., Lee, C.-J., Mahdavi, M., Lu, C.-J., Jin, R., Zhu, S.: Online optimization with gradual variations. In: COLT, pp. 6.1–6.20 (2012)
8.
Zurück zum Zitat Hazan, E., Kale, S.: Better algorithms for benign bandits. J. Mach. Learn. Res. 12, 1287–1311 (2011)MATHMathSciNet Hazan, E., Kale, S.: Better algorithms for benign bandits. J. Mach. Learn. Res. 12, 1287–1311 (2011)MATHMathSciNet
9.
Zurück zum Zitat Kleinberg, R., Niculescu-Mizil, A., Sharma, Y.: Regret bounds for sleeping experts and bandits. Mach. Learn. 80(2–3), 245–272 (2010)CrossRefMATHMathSciNet Kleinberg, R., Niculescu-Mizil, A., Sharma, Y.: Regret bounds for sleeping experts and bandits. Mach. Learn. 80(2–3), 245–272 (2010)CrossRefMATHMathSciNet
10.
Zurück zum Zitat Lee, C.-J., Tsai, S.-C., Yang, M.-C.: Online prediction problems with variation. In: COCOON, pp. 49–60 (2014) Lee, C.-J., Tsai, S.-C., Yang, M.-C.: Online prediction problems with variation. In: COCOON, pp. 49–60 (2014)
11.
Zurück zum Zitat Neu, G., György, A., Szepesvári, C., Antos, A.: Online markov decision processes under bandit feedback. IEEE Trans. Automat. Contr. 59(3), 676–691 (2014)CrossRefMATHMathSciNet Neu, G., György, A., Szepesvári, C., Antos, A.: Online markov decision processes under bandit feedback. IEEE Trans. Automat. Contr. 59(3), 676–691 (2014)CrossRefMATHMathSciNet
12.
Metadaten
Titel
Adversarial Multiarmed Bandit Problems in Gradually Evolving Worlds
verfasst von
Chia-Jung Lee
Yalei Yang
Sheng-Hui Meng
Tien-Wen Sung
Copyright-Jahr
2018
DOI
https://doi.org/10.1007/978-3-319-70730-3_36

    Premium Partner