@Vlad122

За что даются внутренние награды в имитационном обучении ml agents?

В файле конфигурации в gail есть параметр strength, который определяет степень влияния внутренних наград. В документации сказано, что награды даются за соответствие записанному материалу, но что за соответствие не ясно. Я предположил, что за точное повторение действий (т.е. когда агент след в след наступает примеру из запси), но это бред, тогда бы от нескольких записей на рандомизированной карте агенту толку вообще бы не было, а он как я понял есть, значит здесь что-то другое.
  • Вопрос задан
  • 33 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы