Задать вопрос
@pavlik321
Генератор случайных Q&A важных людям

Как корректирует нейросеть Reinforcment Learning?

Возьмём обратное распространение ошибки:
Кратко: Прогнали на выборке, потом градиентный спуск, находим самые плохие нейроны - подправляем, хорошие - усиливаем.
Дальше GA и NEAT тоже кратко: фитнесс функция, дальше скрещивание и мутация наиболее приспособленных.

Reinforcment Learning: агент, окружение, политика, НО как потом мы изменяем нейросеть, используя награждение? Отличие фитнесс функции от награды?
  • Вопрос задан
  • 50 просмотров
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 1
freeExec
@freeExec
Участник OpenStreetMap
Давно это было могу наврать.
Есть сеть, которой на вход приходит несколько последних состояния среды и она предсказывает действие.
Потом можем каждый шаг обучать: заработали очки - положительная обратная связь; не чего в общем не произошло - немного штрафуем; умерли - большой штраф. Ну и дальше тут большое поле для экспериментов, за что ругать, а за что хватить и как сильно сеть.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы