Оглавление
Обучение без использования моделей (обучение с подкреплением)
-
Основы машинного обучения
- Машинное обучение – это процесс обучения алгоритмов для решения задач, которые не могут быть решены с помощью традиционных методов.
- Обучение с подкреплением (RL) – это метод машинного обучения, который использует алгоритмы для изучения поведения в среде, где вознаграждение зависит от действий.
-
Безмодельные алгоритмы RL
- Безмодельные алгоритмы RL не используют модели для оценки вероятности перехода и функции вознаграждения.
- Примеры безмодельных алгоритмов включают методы Монте-Карло, Sarsa и Q-learning.
- Оценка методом Монте-Карло является ключевым компонентом безмодельных алгоритмов и включает оценку политики и улучшение политики.
-
Преимущества безмодельных алгоритмов
- Безмодельные алгоритмы могут достигать сверхчеловеческой производительности в сложных задачах, таких как игры Atari и StarCraft.
- Глубокое обучение с подкреплением, например AlphaGo, использует безмодельные алгоритмы для достижения впечатляющих результатов.
-
Примеры безмодельных алгоритмов
- Некоторые безмодельные алгоритмы включают Deep Q-Network, Dueling DQN, Double DQN и другие.
- Глубокое обучение с подкреплением, такое как AlphaGo, использует безмодельные алгоритмы для достижения впечатляющих результатов.