Q-обучение

Q-обучение Q-learning — алгоритм обучения с подкреплением, основанный на максимизации ожидаемого вознаграждения.  Алгоритм использует таблицу Q для хранения значений действий […]

Q-обучение

  • Q-learning — алгоритм обучения с подкреплением, основанный на максимизации ожидаемого вознаграждения. 
  • Алгоритм использует таблицу Q для хранения значений действий и состояний. 
  • Высокие начальные значения могут стимулировать поиск и увеличивать вероятность выбора более низких значений. 
  • RIC-модель (с использованием сброса начальных условий) может быть лучше предсказывать поведение участников. 
  • Q-learning может быть объединено с аппроксимацией функции для применения к более крупным задачам. 
  • Квантование может уменьшить пространство состояний/действий за счет присвоения значений корзинам. 
  • Q-learning был представлен Крисом Уоткинсом в 1989 году, доказательство сходимости было представлено в 1992 году. 
  • Существуют модификации Q-learning, такие как Q-Learning с подключенной нейронной сетью, которые пытаются решить проблему неэффективного обучения из-за проклятия размерности. 

Полный текст статьи:

Q-обучение — Википедия

Оставьте комментарий

Прокрутить вверх