Нейронная сеть для игры. Как правильно выбирать действия агента?

Question

NSliM @nslim13

Нейронная сеть для игры. Как правильно выбирать действия агента?

Имею среду (игровое поле) и агента (нейронную сеть). Метод обучения deep q-learning. На вход нейронке подаю состояние клеток игрового поля (доступные действия в каждой клетке в надежде на то, что агент научится строить замысловатые цепочки ходов), на выходе получаю вероятности одного из 8-ми действий (ходы по вертикали, горизонтали или диагонали). Задача агента добраться до определенной точки (загнать мяч в ворота, если так будет понятней), за это он получает награду. Есть правило, что в каждой клетке каждое действие доступно только однажды (попав в клетку повторно совершённые ранее действия уже недоступны).
Вопрос в том, как быть, если нейронка выбирает недоступное в данный момент действие? Например как если бы в шашках агент пытался походить на занятую другой шашкой клетку. Пробовал штрафовать за выбор недоступного действия (после штрафа сбрасывал состояние среды в начальное состояние). В результате рано или поздно наступает момент, когда агент как бы зацикливается и начинает совершать одну и ту же цепочку действий, последнее из которых недоступно. Потом штраф, сброс, и по новой. Пробовал не сбрасывать среду после неверного выбора, а штрафовать на каждом шаге, пока агент не выберет другое действие. Результат особо не отличается: действия агента не имеют особого смысла. До этого мне удалось обучить агента в окружении Frozen Lake и научить нейросеть играть в игру NIM. А тут что-то никак. ЧЯДНТ? Может мой подход в принципе неверный?..

Вопрос задан более трёх лет назад
187 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 22 часа назад
- 73 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- вчера
- 129 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 35 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 52 просмотра
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 54 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 51 просмотр
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 194 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 111 просмотров
1

ответ
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- 05 июл.
- 58 просмотров
1

ответ
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Эксперт по транспортной сети/Сетевой инженер

НТЦ ПРОТЕЙ • Санкт-Петербург

от 200 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2019-09-03 23:20:46

Введите ещё один параметр-указатель во входной слой: доступен/не доступен объект/клетка (или сразу несколько фалгов: по каждому типу для каждого из всех объектов) и им фильтруйте возможность выбора этой клетки для совершения хода агентом.
PS: Видимо, у Вас есть все возможности ходов в клетке, кроме запрета использования.

Нейронная сеть для игры. Как правильно выбирать действия агента?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт