Q-обучение
- Q-learning – алгоритм обучения с подкреплением, основанный на максимизации ожидаемого вознаграждения.
- Алгоритм использует таблицу Q для хранения значений действий и состояний.
- Высокие начальные значения могут стимулировать поиск и увеличивать вероятность выбора более низких значений.
- RIC-модель (с использованием сброса начальных условий) может быть лучше предсказывать поведение участников.
- Q-learning может быть объединено с аппроксимацией функции для применения к более крупным задачам.
- Квантование может уменьшить пространство состояний/действий за счет присвоения значений корзинам.
- Q-learning был представлен Крисом Уоткинсом в 1989 году, доказательство сходимости было представлено в 1992 году.
- Существуют модификации Q-learning, такие как Q-Learning с подключенной нейронной сетью, которые пытаются решить проблему неэффективного обучения из-за проклятия размерности.
Полный текст статьи: