Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Question

Paul14 @Paul14

Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Создаю нейронную сеть. Обучение с подкреплением. Reinforcement learning.

Агент двигается по полю 10х10. Его задача - собрать как можно больше куриных ножек.
Изначально пробовал генетический алгоритм, он показал максимальный результат = 10 шт (на доске всего 20).
Сейчас решил попробовать метод наград и штрафов. Но возникла проблема с кодом.

Награды: за попадание на клетку с куриной ножкой, за каждый ход (чтобы дольше оставался в игре)
Штрафы: выход за границы, шаги туда-сюда, превышение максимального кол-ва ходов

Модель системы - 63 входа (состояние среды) - 23 нейрона в скрытом слое - 4 нейрона на выходе ( [0,0,0,1] - где содержатся вероятности хода наверх, вниз, вправо, влево )

Заполнил сеть рандомными весами. Нейросеть предсказывает каждый ход боту.

Использую tensorflow js. Хочу чтобы на каждом новом шагу веса корректировались в зависимости от наград и штрафов. Чтобы за границы не выходил, а понимал, что нужно исследовать окружение.

Если бот сходил вправо и вышел за границы игрового поля - начисляю ему штраф, это должно быть плохим примером для нейронной сети. Далее беру выходной нейрон, который показывал наибольшую вероятность (ход вправо) и каким-то образом делаю обратное распространение...уменьшаю веса градиентом по всей цепочке от этого одного выходного нейрона до входных данных.

Кто-нибудь знает как это выглядит в коде tensorflow?

В итоге хочется получить что-то по типу
tf.model.namefunction( нейрон выходного слоя,   x    )
где x - значение на которое сделать обратное распространение. За штраф скажем -0.01, за награду 0.004

Вопрос задан более двух лет назад
69 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- вчера
- 131 просмотр
1

ответ
JavaScript

Простой
Как получить переменную из esm-модуля?
- 1 подписчик
- 24 июл.
- 118 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как сделать так чтоб push уведомления отправлялись в фоне при открытом но неактивном pwa приложении?
- 1 подписчик
- 24 июл.
- 50 просмотров
0

ответов
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 41 просмотр
0

ответов
JavaScript

+2 ещё

Средний
Есть для готовый плагин для проверки css-переменных со следующими фичами (см. описание)?
- 1 подписчик
- 24 июл.
- 52 просмотра
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 41 просмотр
0

ответов
JavaScript

+1 ещё

Простой
Каким образом отлавливать и корректно устранять конкурирующие запросы javascript на сайте?
- 1 подписчик
- 21 июл.
- 467 просмотров
1

ответ
JavaScript

Простой
Как улучшить изображение от генерации pdf в изображение?
- 1 подписчик
- 21 июл.
- 97 просмотров
1

ответ
JavaScript

Простой
Как в javascript сделать увеличение последующего значения на определенное число?
- 1 подписчик
- 19 июл.
- 209 просмотров
2

ответа
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 42 просмотра
2

ответа
Показать ещё Загружается…

JavaScript Developer (KSC)

Лаборатория Касперского • Москва

JavaScript Developer (NGFW)

Лаборатория Касперского

Frontend developer (JavaScript, jQuery)

Karma8

от 150 000 до 320 000 ₽

Вам нужно подготовить "правильную" метку ответа так, чтобы для этого нейрона была нужное вам значение, а для остальных то что выдала сеть. Тогда при расчёте ошибки, их влияние будет 0.
Как уж это выглядит в js коде я хз.
freeExec, спасибо. Да, как вариант. Попробую.

Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт