Что подается на вход нейросети при обучении с подкреплением и что мы имеем на выходе?

Question

intTosha @intTosha

Нейронные сети

Что подается на вход нейросети при обучении с подкреплением и что мы имеем на выходе?

Доброго времени суток.
при прочтении книги об обучении с подкреплением возникли следующие вопросы:
1. Что подается на вход? Состояния среды? Ценность действий? Если первое, то каким образом используется второе? То есть.. Как ценность действий влияет на выбор, если на вход мы подаем состояния. И наоборот. Как агент узнает о состояниях среды если на вход подается Ценность действий. Прошу прощения за тупой вопрос, но я просто запутался.
2. Правильно я понимаю, что на выходе должны быть возможные действия?
3. Как выглядит нейросеть? Это персептрон или что-то другое?

Можете ли вы привести простой пример на какой нибудь игре, типа дендивского пинг-понга? Пример с многоруким бандитом не понимаю, хоть убейте...

Вопрос задан более трёх лет назад
1104 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- вчера
- 22 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 43 просмотра
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 42 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 45 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 181 просмотр
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 96 просмотров
1

ответ
Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- 05 июл.
- 58 просмотров
1

ответ
Нейронные сети

Простой
Flowise error 500?
- 1 подписчик
- 04 июл.
- 68 просмотров
0

ответов
Нейронные сети

Простой
Нейросеть на ПК для обработки книжной литературы с последующей выдачей ответов по запросам?
- 1 подписчик
- 28 мая
- 196 просмотров
4

ответа
Arduino

+1 ещё

Средний
Сможет ли нейросеть написать скетч для Arduino mini мультиплексор нескольких COM портов в один?
- 2 подписчика
- 26 мая
- 316 просмотров
1

ответ
Показать ещё Загружается…

Data Scientist

YADRO

Machine Learning Engineer (LLM)

Icons8

Deep Learning Engineer в команду Perception

Navio • Москва

Answer 1 · 2017-11-06 18:13:40

На вход - состояние среды, каким-то образом закодированное плюс возможное действие. На выходе - ценность этого действия. В своей первой статье DeepMind вычисляли ценности для всех действий сразу, поэтому там был не один выход, а N. Но это не обязательно.
Плюс еще есть более сложные модели для обучения с подкреплением типа actor-critic.

Архитектура нейросети зависит от способа кодирования среды. Это может быть и перспетрон, а могут быть сверточные нейронные сети, если мы подаем визуальный сигнал. А может содержать рекурентные сети, если на входе текст или еще какая-нибудь последовательность.

Answer 2 · 2017-11-06 11:46:39

Арсений Кравченко @Arseny_Info

R&D engineer

Один из самых простых примеров https://github.com/pytorch/examples/blob/master/re...

Ответ написан более трёх лет назад

Комментировать

Что подается на вход нейросети при обучении с подкреплением и что мы имеем на выходе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт