Распределительный мягкий актерский критик

Основы DSAC
- DSAC – это семейство безмодельных алгоритмов обучения с подкреплением для сложных систем.
- Алгоритмы DSAC изучают гауссовское распределение стохастической доходности, известное как распределение стоимости.
- Этот подход снижает завышение ожидаемой доходности и повышает эффективность политики.
Развитие и применение DSAC
- DSAC является адаптацией метода soft actor-critic (SAC).
- Семейство DSAC включает две версии: DSAC-v1 и DSAC-T, последний из которых превосходит SAC в задачах Mujoco.
- Исходный код для DSAC-T доступен по адресу Jingliang-Duan/DSAC-T.
- Обе итерации интегрированы в инструментарий GOPS на базе Pytorch.
Интеграция в обучение с подкреплением
- GOPS (General Optimal control Problem Solver) – это продвинутый инструментарий для обучения с подкреплением.

Полный текст статьи: