Задать вопрос
BitNeBolt
@BitNeBolt

Существует ли подобные методы обучения с подкреплением?

Возможно, вопрос будет звучать глупо или странно.

Для вознаграждения создать функцию, которая будет поощрять или наказывать агента. Можно ли обучать агента методом, в целом схожим с градиентным спуском, но "двигаться" в направлении роста функции награды и изменять веса в целом также, как и при спуске?
  • Вопрос задан
  • 29 просмотров
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Специалист по Data Science плюс
    17 месяцев
    Далее
  • Нетология
    Бизнес-аналитик
    7 месяцев
    Далее
  • Нетология
    Data Scientist: расширенный курс
    13 месяцев
    Далее
Решения вопроса 1
@dmshar
Градиентный спуск от "градиентного подъема" отличается только знаком целевой функции. Все это - методы численного поиска экстремума функций, которые не отличаются при поиске минимума и максимума.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы