За что даются внутренние награды в имитационном обучении ml agents?

Question

Vlad122 @Vlad122

Unity

За что даются внутренние награды в имитационном обучении ml agents?

В файле конфигурации в gail есть параметр strength, который определяет степень влияния внутренних наград. В документации сказано, что награды даются за соответствие записанному материалу, но что за соответствие не ясно. Я предположил, что за точное повторение действий (т.е. когда агент след в след наступает примеру из запси), но это бред, тогда бы от нескольких записей на рандомизированной карте агенту толку вообще бы не было, а он как я понял есть, значит здесь что-то другое.

Вопрос задан более двух лет назад
35 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

freeExec @freeExec

Почему за точное, а не за чем ближе, тем больше?

Написано более двух лет назад
Vlad122 @Vlad122 Автор вопроса

freeExec, Я просто тогда немного не пойму источника эффективности такого обучения на рандомизированной карте, если бот стремится повторить действие ограниченного количества записей

Написано более двух лет назад
freeExec @freeExec

Vlad122, если ты тут пошёл вверх, а бот пошёл вниз, то он сделал что-то не так и ему штраф, а если пошёл так же куда-то вверх, то бонус. Чем ближе к месту в записи, тем больше бонус. Вообще прочитай про reinforce learning

Написано более двух лет назад
Vlad122 @Vlad122 Автор вопроса

freeExec, или всё сложнее: появилась мысль, что агент ищет закономерности в записях и, если это приводит к результату, то он получает награду и закрепляет полученные знания

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Unity

Средний
Создавал в юнити ПК проект, но создал почему-то мобильный, как исправить?
- 1 подписчик
- 25 июл.
- 68 просмотров
1

ответ
Unity

Простой
Как правильно позиционировать два RectTransform?
- 1 подписчик
- 22 июл.
- 21 просмотр
0

ответов
C#

+1 ещё

Простой
Как исправить ошибку CS0019 в Unity?
- 1 подписчик
- 16 июл.
- 85 просмотров
2

ответа
Unity

Средний
Как написать шейдер?
- 1 подписчик
- 14 июл.
- 91 просмотр
0

ответов
Unity

Средний
Как в Unity реализовать автоматическое подпрыгивание физического объекта при движении?
- 1 подписчик
- 14 июл.
- 52 просмотра
1

ответ
C#

+2 ещё

Простой
Ошибка после билда в WebGL?
- 1 подписчик
- 05 июл.
- 69 просмотров
0

ответов
C#

+1 ещё

Простой
Как влиять на окно выводя его за пределы экрана?
- 1 подписчик
- 30 июн.
- 105 просмотров
2

ответа
C#

+1 ещё

Простой
Как поставить задержку или остановку между вызовами методов из разных скриптов?
- 1 подписчик
- 29 июн.
- 105 просмотров
3

ответа
C#

+3 ещё

Простой
Как работают переводы на другие языки в играх?
- 2 подписчика
- 16 июн.
- 1215 просмотров
3

ответа
Unity

Простой
Яндекс Игры Нашел 1 проект 2 года назад созданный решил скопировать код и видимо из за обнов уже так нельзя? как исправить?
- 1 подписчик
- 16 июн.
- 167 просмотров
0

ответов
Показать ещё Загружается…

Senior Unity/C# разработчик

ANCOR • Москва

Senior C# Unity Developer

СТБ-Студио

C# Unity Developer

Netwrk • Оренбург

Почему за точное, а не за чем ближе, тем больше?
freeExec, Я просто тогда немного не пойму источника эффективности такого обучения на рандомизированной карте, если бот стремится повторить действие ограниченного количества записей
Vlad122, если ты тут пошёл вверх, а бот пошёл вниз, то он сделал что-то не так и ему штраф, а если пошёл так же куда-то вверх, то бонус. Чем ближе к месту в записи, тем больше бонус. Вообще прочитай про reinforce learning
freeExec, или всё сложнее: появилась мысль, что агент ищет закономерности в записях и, если это приводит к результату, то он получает награду и закрепляет полученные знания

За что даются внутренние награды в имитационном обучении ml agents?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт