Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Question

Paul14 @Paul14

Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Создаю нейронную сеть. Обучение с подкреплением. Reinforcement learning.

Агент двигается по полю 10х10. Его задача - собрать как можно больше куриных ножек.
Изначально пробовал генетический алгоритм, он показал максимальный результат = 10 шт (на доске всего 20).
Сейчас решил попробовать метод наград и штрафов. Но возникла проблема с кодом.

Награды: за попадание на клетку с куриной ножкой, за каждый ход (чтобы дольше оставался в игре)
Штрафы: выход за границы, шаги туда-сюда, превышение максимального кол-ва ходов

Модель системы - 63 входа (состояние среды) - 23 нейрона в скрытом слое - 4 нейрона на выходе ( [0,0,0,1] - где содержатся вероятности хода наверх, вниз, вправо, влево )

Заполнил сеть рандомными весами. Нейросеть предсказывает каждый ход боту.

Использую tensorflow js. Хочу чтобы на каждом новом шагу веса корректировались в зависимости от наград и штрафов. Чтобы за границы не выходил, а понимал, что нужно исследовать окружение.

Если бот сходил вправо и вышел за границы игрового поля - начисляю ему штраф, это должно быть плохим примером для нейронной сети. Далее беру выходной нейрон, который показывал наибольшую вероятность (ход вправо) и каким-то образом делаю обратное распространение...уменьшаю веса градиентом по всей цепочке от этого одного выходного нейрона до входных данных.

Кто-нибудь знает как это выглядит в коде tensorflow?

В итоге хочется получить что-то по типу
tf.model.namefunction( нейрон выходного слоя,   x    )
где x - значение на которое сделать обратное распространение. За штраф скажем -0.01, за награду 0.004

Вопрос задан более двух лет назад
69 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
Как сделать такой эффект фона на css/js?
- 1 подписчик
- 8 часов назад
- 109 просмотров
0

ответов
JavaScript

+3 ещё

Простой
TG Mini App Full screen отступ от выреза?
- 2 подписчика
- вчера
- 196 просмотров
1

ответ
Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- вчера
- 37 просмотров
0

ответов
Нейронные сети

Простой
Flowise error 500?
- 1 подписчик
- 04 июл.
- 57 просмотров
0

ответов
JavaScript

Простой
Как отображать HTML в виде текста, но и не поломать markdown?
- 1 подписчик
- 03 июл.
- 136 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Как создать плиточное меню WP с различным кеглем, по мере варьирования числа постов в категориях?
- 1 подписчик
- 02 июл.
- 89 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как можно получить такой список ссылок?
- 1 подписчик
- 01 июл.
- 197 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как упростить и ускорить js на смену текста?
- 3 подписчика
- 01 июл.
- 1941 просмотр
2

ответа
JavaScript

+2 ещё

Простой
Как поменять цвет линии при нажатии?
- 1 подписчик
- 30 июн.
- 165 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как создать скрипт удаления элемента HTML используя Tempermonkey?
- 1 подписчик
- 29 июн.
- 119 просмотров
1

ответ
Показать ещё Загружается…

Старший Frontend (JavaScript) разработчик

Vital Partners

от 350 000 до 400 000 ₽

Fullstack разработчик JavaScript, php

Дорстрой-36 • Воронеж

от 100 000 до 150 000 ₽

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 150 000 до 300 000 ₽

Вам нужно подготовить "правильную" метку ответа так, чтобы для этого нейрона была нужное вам значение, а для остальных то что выдала сеть. Тогда при расчёте ошибки, их влияние будет 0.
Как уж это выглядит в js коде я хз.
freeExec, спасибо. Да, как вариант. Попробую.

Как реализовать в tensorflow js обратное распространение с определенного выходного нейрона?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт