@intTosha

Что подается на вход нейросети при обучении с подкреплением и что мы имеем на выходе?

Доброго времени суток.
при прочтении книги об обучении с подкреплением возникли следующие вопросы:
1. Что подается на вход? Состояния среды? Ценность действий? Если первое, то каким образом используется второе? То есть.. Как ценность действий влияет на выбор, если на вход мы подаем состояния. И наоборот. Как агент узнает о состояниях среды если на вход подается Ценность действий. Прошу прощения за тупой вопрос, но я просто запутался.
2. Правильно я понимаю, что на выходе должны быть возможные действия?
3. Как выглядит нейросеть? Это персептрон или что-то другое?

Можете ли вы привести простой пример на какой нибудь игре, типа дендивского пинг-понга? Пример с многоруким бандитом не понимаю, хоть убейте...
  • Вопрос задан
  • 1084 просмотра
Пригласить эксперта
Ответы на вопрос 2
@ivodopyanov
NLP, python, numpy, tensorflow
На вход - состояние среды, каким-то образом закодированное плюс возможное действие. На выходе - ценность этого действия. В своей первой статье DeepMind вычисляли ценности для всех действий сразу, поэтому там был не один выход, а N. Но это не обязательно.
Плюс еще есть более сложные модели для обучения с подкреплением типа actor-critic.

Архитектура нейросети зависит от способа кодирования среды. Это может быть и перспетрон, а могут быть сверточные нейронные сети, если мы подаем визуальный сигнал. А может содержать рекурентные сети, если на входе текст или еще какая-нибудь последовательность.
Ответ написан
Комментировать
Arseny_Info
@Arseny_Info
R&D engineer
Один из самых простых примеров https://github.com/pytorch/examples/blob/master/re...
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы