Существует ли подобные методы обучения с подкреплением?

Question

BitNeBolt @BitNeBolt

Нейронные сети

Существует ли подобные методы обучения с подкреплением?

Возможно, вопрос будет звучать глупо или странно.

Для вознаграждения создать функцию, которая будет поощрять или наказывать агента. Можно ли обучать агента методом, в целом схожим с градиентным спуском, но "двигаться" в направлении роста функции награды и изменять веса в целом также, как и при спуске?

Вопрос задан более трёх лет назад
28 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- вчера
- 85 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- вчера
- 142 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 35 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 52 просмотра
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 55 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 51 просмотр
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 194 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 111 просмотров
1

ответ
Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- 05 июл.
- 59 просмотров
1

ответ
Нейронные сети

Простой
Flowise error 500?
- 1 подписчик
- 04 июл.
- 70 просмотров
0

ответов
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Эксперт по транспортной сети/Сетевой инженер

НТЦ ПРОТЕЙ • Санкт-Петербург

от 200 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2020-07-14 09:48:49

Градиентный спуск от "градиентного подъема" отличается только знаком целевой функции. Все это - методы численного поиска экстремума функций, которые не отличаются при поиске минимума и максимума.

Существует ли подобные методы обучения с подкреплением?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт