Q-обучение

Q-learning – алгоритм обучения с подкреплением, основанный на максимизации ожидаемого вознаграждения.
Алгоритм использует таблицу Q для хранения значений действий и состояний.
Высокие начальные значения могут стимулировать поиск и увеличивать вероятность выбора более низких значений.
RIC-модель (с использованием сброса начальных условий) может быть лучше предсказывать поведение участников.
Q-learning может быть объединено с аппроксимацией функции для применения к более крупным задачам.
Квантование может уменьшить пространство состояний/действий за счет присвоения значений корзинам.
Q-learning был представлен Крисом Уоткинсом в 1989 году, доказательство сходимости было представлено в 1992 году.
Существуют модификации Q-learning, такие как Q-Learning с подключенной нейронной сетью, которые пытаются решить проблему неэффективного обучения из-за проклятия размерности.

Полный текст статьи:

Q-обучение

Q-обучение

Q-обучение — Википедия

Оставьте комментарий Отменить ответ

Q-обучение

Q-обучение

Q-обучение — Википедия

Похожие статьи:

Оставьте комментарий Отменить ответ