@pavlik321
Генератор случайных Q&A важных людям

Как корректирует нейросеть Reinforcment Learning?

Возьмём обратное распространение ошибки:
Кратко: Прогнали на выборке, потом градиентный спуск, находим самые плохие нейроны - подправляем, хорошие - усиливаем.
Дальше GA и NEAT тоже кратко: фитнесс функция, дальше скрещивание и мутация наиболее приспособленных.

Reinforcment Learning: агент, окружение, политика, НО как потом мы изменяем нейросеть, используя награждение? Отличие фитнесс функции от награды?
  • Вопрос задан
  • 12 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы