Обучение с подкреплением

Обучение с подкреплением Марковские процессы принятия решений используются для моделирования поведения агентов в сложных системах.  Оптимальная политика определяется как максимизация […]

Обучение с подкреплением

  • Марковские процессы принятия решений используются для моделирования поведения агентов в сложных системах. 
  • Оптимальная политика определяется как максимизация ожидаемого дисконтированного дохода. 
  • Теория марковских процессов утверждает, что оптимальная политика выбирается из оптимальной функции зависимости действия от ценности. 
  • Итерация значений и итерация политики являются основными подходами к вычислению оптимальной функции зависимости действия от ценности. 
  • Методы Монте-Карло используются в алгоритме, имитирующем итерацию политики. 
  • Разработка политики включает оценку политики и ее совершенствование с использованием методов Монте-Карло и определения временных разниц. 
  • Методы аппроксимации функций используются для решения пятой проблемы, связанной с получением точных оценок значений действий. 
  • Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала. 

Полный текст статьи:

Обучение с подкреплением — Википедия

Оставьте комментарий

Прокрутить вверх