Критик распределительного мягкого актера

Распределительный мягкий актерский критик Основы DSAC DSAC — это семейство безмодельных алгоритмов обучения с подкреплением для сложных систем.  Алгоритмы DSAC […]

Распределительный мягкий актерский критик

  • Основы DSAC

    • DSAC — это семейство безмодельных алгоритмов обучения с подкреплением для сложных систем. 
    • Алгоритмы DSAC изучают гауссовское распределение стохастической доходности, известное как распределение стоимости. 
    • Этот подход снижает завышение ожидаемой доходности и повышает эффективность политики. 
  • Развитие и применение DSAC

    • DSAC является адаптацией метода soft actor-critic (SAC). 
    • Семейство DSAC включает две версии: DSAC-v1 и DSAC-T, последний из которых превосходит SAC в задачах Mujoco. 
    • Исходный код для DSAC-T доступен по адресу Jingliang-Duan/DSAC-T. 
    • Обе итерации интегрированы в инструментарий GOPS на базе Pytorch. 
  • Интеграция в обучение с подкреплением

    • GOPS (General Optimal control Problem Solver) — это продвинутый инструментарий для обучения с подкреплением. 

Полный текст статьи:

Критик распределительного мягкого актера — Википедия

Оставьте комментарий

Прокрутить вверх