Существует ли подобные методы обучения с подкреплением?
Возможно, вопрос будет звучать глупо или странно.
Для вознаграждения создать функцию, которая будет поощрять или наказывать агента. Можно ли обучать агента методом, в целом схожим с градиентным спуском, но "двигаться" в направлении роста функции награды и изменять веса в целом также, как и при спуске?
Градиентный спуск от "градиентного подъема" отличается только знаком целевой функции. Все это - методы численного поиска экстремума функций, которые не отличаются при поиске минимума и максимума.