Многорукий бандит
-
Обзор многорукого бандита
- Многорукий бандит — это модель принятия решений, в которой агент выбирает между несколькими действиями с неизвестными вероятностями и вознаграждениями.
- Агент стремится максимизировать ожидаемое вознаграждение, учитывая ограничения на количество действий, которые можно выполнить.
-
История и развитие
- Впервые описана в 1952 году, но не получила широкого распространения до 1980-х годов.
- В 1983 году Дэвид Канеман и Амос Тверски опубликовали статью, в которой описали, как люди принимают решения в условиях неопределенности.
- В 1992 году Ричард Сэйерс и Амос Тверски предложили алгоритм UCB, который стал основой для многих последующих исследований.
-
Стратегии и решения
- Существует множество стратегий для решения задачи многорукого бандита, включая линейные и нелинейные подходы.
- Алгоритмы UCB и EXP3 являются популярными и широко используются в различных приложениях.
- Существуют также приближенные решения, такие как LinUCB и UCB-ALP, которые позволяют достичь логарифмического сожаления.
-
Контекстуальные бандиты и ограниченные контекстуальные бандиты
- Контекстуальные бандиты учитывают контекстные характеристики, такие как характеристики оружия или характеристики окружающей среды.
- Ограниченные контекстуальные бандиты учитывают временные и бюджетные ограничения, что важно в практических приложениях.
-
Враждебный бандит и повторяющаяся дилемма заключенного
- Враждебный бандит представляет собой более сложную версию задачи, где агент и противник одновременно выбирают стратегии.
- Повторяющаяся дилемма заключенного является примером, где стандартные стохастические алгоритмы не работают хорошо.
-
Анализ и оптимизация
- Алгоритмы многорукого бандита анализируются с точки зрения их сожалений и эффективности.
- Существуют модификации алгоритмов, такие как FPL и Exp3, которые улучшают их производительность в стохастических условиях.
-
Бесконечное и нестационарное вооружение
- В случае бесконечного вооружения алгоритм Exp3 модифицируется для учета непрерывного распределения вознаграждений.
- Нестационарный бандит учитывает концептуальный дрейф в ожидаемых вознаграждениях, что требует использования динамического оракула для оптимизации.
- Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.