За что даются внутренние награды в имитационном обучении ml agents?
В файле конфигурации в gail есть параметр strength, который определяет степень влияния внутренних наград. В документации сказано, что награды даются за соответствие записанному материалу, но что за соответствие не ясно. Я предположил, что за точное повторение действий (т.е. когда агент след в след наступает примеру из запси), но это бред, тогда бы от нескольких записей на рандомизированной карте агенту толку вообще бы не было, а он как я понял есть, значит здесь что-то другое.
freeExec, Я просто тогда немного не пойму источника эффективности такого обучения на рандомизированной карте, если бот стремится повторить действие ограниченного количества записей
Vlad122, если ты тут пошёл вверх, а бот пошёл вниз, то он сделал что-то не так и ему штраф, а если пошёл так же куда-то вверх, то бонус. Чем ближе к месту в записи, тем больше бонус. Вообще прочитай про reinforce learning
freeExec, или всё сложнее: появилась мысль, что агент ищет закономерности в записях и, если это приводит к результату, то он получает награду и закрепляет полученные знания