МуЗеро
- MuZero — компьютерная программа, разработанная DeepMind для освоения игр без знания их правил.
- Алгоритм использует подход, аналогичный AlphaZero, и сравнялся с AlphaZero в игре в шахматы и сеги.
- MuZero обучался с помощью самостоятельной игры без доступа к правилам, вводным книгам или таблицам эндшпиля.
- Обученный алгоритм использовал ту же сверточную и остаточную архитектуру, что и AlphaZero, но с сокращением вычислительных операций на узел в дереве поиска.
- MuZero сочетает высокопроизводительный алгоритм планирования AlphaZero с подходами к обучению с подкреплением без использования моделей.
- MuZero превзошел R2D2 по набору игр, хотя и не в каждой игре был лучше.
- MuZero рассматривался как значительное достижение по сравнению с AlphaZero и обобщающий шаг вперед в области методов обучения без присмотра.
Полный текст статьи: