Как корректирует нейросеть Reinforcment Learning?

Question

pavlik 322 @pavlik321

Генератор случайных Q&A важных людям

Как корректирует нейросеть Reinforcment Learning?

Возьмём обратное распространение ошибки:
Кратко: Прогнали на выборке, потом градиентный спуск, находим самые плохие нейроны - подправляем, хорошие - усиливаем.
Дальше GA и NEAT тоже кратко: фитнесс функция, дальше скрещивание и мутация наиболее приспособленных.

Reinforcment Learning: агент, окружение, политика, НО как потом мы изменяем нейросеть, используя награждение? Отличие фитнесс функции от награды?

Вопрос задан 02 дек. 2024
56 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 78 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 78 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 147 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 249 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 62 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 221 просмотр
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 160 просмотров
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Answer 1 · 2024-12-02 18:22:51

Давно это было могу наврать.
Есть сеть, которой на вход приходит несколько последних состояния среды и она предсказывает действие.
Потом можем каждый шаг обучать: заработали очки - положительная обратная связь; не чего в общем не произошло - немного штрафуем; умерли - большой штраф. Ну и дальше тут большое поле для экспериментов, за что ругать, а за что хватить и как сильно сеть.

Как корректирует нейросеть Reinforcment Learning?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт