Что подается на вход нейросети при обучении с подкреплением и что мы имеем на выходе?
Доброго времени суток.
при прочтении книги об обучении с подкреплением возникли следующие вопросы:
1. Что подается на вход? Состояния среды? Ценность действий? Если первое, то каким образом используется второе? То есть.. Как ценность действий влияет на выбор, если на вход мы подаем состояния. И наоборот. Как агент узнает о состояниях среды если на вход подается Ценность действий. Прошу прощения за тупой вопрос, но я просто запутался.
2. Правильно я понимаю, что на выходе должны быть возможные действия?
3. Как выглядит нейросеть? Это персептрон или что-то другое?
Можете ли вы привести простой пример на какой нибудь игре, типа дендивского пинг-понга? Пример с многоруким бандитом не понимаю, хоть убейте...
На вход - состояние среды, каким-то образом закодированное плюс возможное действие. На выходе - ценность этого действия. В своей первой статье DeepMind вычисляли ценности для всех действий сразу, поэтому там был не один выход, а N. Но это не обязательно.
Плюс еще есть более сложные модели для обучения с подкреплением типа actor-critic.
Архитектура нейросети зависит от способа кодирования среды. Это может быть и перспетрон, а могут быть сверточные нейронные сети, если мы подаем визуальный сигнал. А может содержать рекурентные сети, если на входе текст или еще какая-нибудь последовательность.