Оглавление

Многорукий бандит

Обзор многорукого бандита
- Многорукий бандит – это модель принятия решений, в которой агент выбирает между несколькими действиями с неизвестными вероятностями и вознаграждениями.
- Агент стремится максимизировать ожидаемое вознаграждение, учитывая ограничения на количество действий, которые можно выполнить.
История и развитие
- Впервые описана в 1952 году, но не получила широкого распространения до 1980-х годов.
- В 1983 году Дэвид Канеман и Амос Тверски опубликовали статью, в которой описали, как люди принимают решения в условиях неопределенности.
- В 1992 году Ричард Сэйерс и Амос Тверски предложили алгоритм UCB, который стал основой для многих последующих исследований.
Стратегии и решения
- Существует множество стратегий для решения задачи многорукого бандита, включая линейные и нелинейные подходы.
- Алгоритмы UCB и EXP3 являются популярными и широко используются в различных приложениях.
- Существуют также приближенные решения, такие как LinUCB и UCB-ALP, которые позволяют достичь логарифмического сожаления.
Контекстуальные бандиты и ограниченные контекстуальные бандиты
- Контекстуальные бандиты учитывают контекстные характеристики, такие как характеристики оружия или характеристики окружающей среды.
- Ограниченные контекстуальные бандиты учитывают временные и бюджетные ограничения, что важно в практических приложениях.
Враждебный бандит и повторяющаяся дилемма заключенного
- Враждебный бандит представляет собой более сложную версию задачи, где агент и противник одновременно выбирают стратегии.
- Повторяющаяся дилемма заключенного является примером, где стандартные стохастические алгоритмы не работают хорошо.
Анализ и оптимизация
- Алгоритмы многорукого бандита анализируются с точки зрения их сожалений и эффективности.
- Существуют модификации алгоритмов, такие как FPL и Exp3, которые улучшают их производительность в стохастических условиях.
Бесконечное и нестационарное вооружение
- В случае бесконечного вооружения алгоритм Exp3 модифицируется для учета непрерывного распределения вознаграждений.
- Нестационарный бандит учитывает концептуальный дрейф в ожидаемых вознаграждениях, что требует использования динамического оракула для оптимизации.
- Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.

Полный текст статьи:

Многорукий бандит — Википедия

Многорукий бандит

Многорукий бандит

Обзор многорукого бандита

История и развитие

Стратегии и решения

Контекстуальные бандиты и ограниченные контекстуальные бандиты

Враждебный бандит и повторяющаяся дилемма заключенного

Анализ и оптимизация

Бесконечное и нестационарное вооружение

Полный текст статьи:

Многорукий бандит — Википедия

Похожие статьи:

Оставьте комментарий Отменить ответ