BitNeBolt
@BitNeBolt

Существует ли подобные методы обучения с подкреплением?

Возможно, вопрос будет звучать глупо или странно.

Для вознаграждения создать функцию, которая будет поощрять или наказывать агента. Можно ли обучать агента методом, в целом схожим с градиентным спуском, но "двигаться" в направлении роста функции награды и изменять веса в целом также, как и при спуске?
  • Вопрос задан
  • 27 просмотров
Решения вопроса 1
@dmshar
Градиентный спуск от "градиентного подъема" отличается только знаком целевой функции. Все это - методы численного поиска экстремума функций, которые не отличаются при поиске минимума и максимума.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы