Многорукий бандит

Многорукий бандит Обзор многорукого бандита Многорукий бандит — это модель принятия решений, в которой агент выбирает между несколькими действиями с […]

Многорукий бандит

  • Обзор многорукого бандита

    • Многорукий бандит — это модель принятия решений, в которой агент выбирает между несколькими действиями с неизвестными вероятностями и вознаграждениями. 
    • Агент стремится максимизировать ожидаемое вознаграждение, учитывая ограничения на количество действий, которые можно выполнить. 
  • История и развитие

    • Впервые описана в 1952 году, но не получила широкого распространения до 1980-х годов. 
    • В 1983 году Дэвид Канеман и Амос Тверски опубликовали статью, в которой описали, как люди принимают решения в условиях неопределенности. 
    • В 1992 году Ричард Сэйерс и Амос Тверски предложили алгоритм UCB, который стал основой для многих последующих исследований. 
  • Стратегии и решения

    • Существует множество стратегий для решения задачи многорукого бандита, включая линейные и нелинейные подходы. 
    • Алгоритмы UCB и EXP3 являются популярными и широко используются в различных приложениях. 
    • Существуют также приближенные решения, такие как LinUCB и UCB-ALP, которые позволяют достичь логарифмического сожаления. 
  • Контекстуальные бандиты и ограниченные контекстуальные бандиты

    • Контекстуальные бандиты учитывают контекстные характеристики, такие как характеристики оружия или характеристики окружающей среды. 
    • Ограниченные контекстуальные бандиты учитывают временные и бюджетные ограничения, что важно в практических приложениях. 
  • Враждебный бандит и повторяющаяся дилемма заключенного

    • Враждебный бандит представляет собой более сложную версию задачи, где агент и противник одновременно выбирают стратегии. 
    • Повторяющаяся дилемма заключенного является примером, где стандартные стохастические алгоритмы не работают хорошо. 
  • Анализ и оптимизация

    • Алгоритмы многорукого бандита анализируются с точки зрения их сожалений и эффективности. 
    • Существуют модификации алгоритмов, такие как FPL и Exp3, которые улучшают их производительность в стохастических условиях. 
  • Бесконечное и нестационарное вооружение

    • В случае бесконечного вооружения алгоритм Exp3 модифицируется для учета непрерывного распределения вознаграждений. 
    • Нестационарный бандит учитывает концептуальный дрейф в ожидаемых вознаграждениях, что требует использования динамического оракула для оптимизации. 
    • Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала. 

Полный текст статьи:

Многорукий бандит — Википедия

Оставьте комментарий

Прокрутить вверх