В чем причина неэффективного обучения DQN-агента посредством python?

Question

Михаил Морозов @ML_Karasik

Люблю нейросети и что с ними связанно

В чем причина неэффективного обучения DQN-агента посредством python?

Пытаюсь обучить DQN-агента играть в крестики-нолики за второго игрока (первый игрок ходит рандомно), однако обучение проходит крайне медленно. Если есть кто-то кто разбирается в ReinforcedLearning и tf-agents, помогите разобраться.

график

За 100_000 шагов модель никак не улучшила свои результаты

Если честно, я не до конца понимаю, что не так с моим кодом обучения:

код

LOG_PERIOD = 1000
PRINT_PERIOD = 100
LEARNING_RATE = 0.001
NUM_ITERATIONS = 100_000

graph = Graphic(LOG_PERIOD)
tf_env = TFPyEnvironment(RandomTicTacToeEnvironment())

q_net = QNetwork(
    tf_env.observation_spec(),
    tf_env.action_spec(),
    fc_layer_params=(100,)
)

train_step_counter = tf.Variable(0)

agent = DqnAgent(
    time_step_spec=tf_env.time_step_spec(),
    action_spec=tf_env.action_spec(),
    q_network=q_net,
    optimizer=Adam(learning_rate=LEARNING_RATE),
    td_errors_loss_fn=common.element_wise_squared_loss,
    epsilon_greedy=0.1,
    train_step_counter=train_step_counter
)
agent.initialize()

eval_policy = agent.policy
collect_policy = agent.collect_policy

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    data_spec=agent.collect_data_spec,
    batch_size=tf_env.batch_size,
    max_length=1000
)

collect_driver = dynamic_step_driver.DynamicStepDriver(
    tf_env,
    collect_policy,
    observers=[replay_buffer.add_batch],
    num_steps=10
)

collect_driver.run = common.function(collect_driver.run)
agent.train = common.function(agent.train)

initial_collect_policy = random_tf_policy.RandomTFPolicy(
    tf_env.time_step_spec(),
    tf_env.action_spec()
)

dataset = replay_buffer.as_dataset(
    num_parallel_calls=3,
    sample_batch_size=8,
    num_steps=2,
    single_deterministic_pass=False
).prefetch(3)
    
iterator = iter(dataset)

dynamic_step_driver.DynamicStepDriver(
    tf_env,
    initial_collect_policy,
    observers=[replay_buffer.add_batch],
    num_steps=10
)

time_step = tf_env.reset()

for _ in np.arange(NUM_ITERATIONS+1):
    time_step, _ = collect_driver.run(time_step)
    experience, _ = next(iterator)

    step = agent.train_step_counter.numpy()
    train_loss = agent.train(experience).loss

    if step % PRINT_PERIOD == 0:
      print('step = {0}: loss = {1}'.format(step, train_loss))

    for reward in tf.reshape(experience.reward, [-1]):
        graph.check(step, reward)

Вот блокнот с полным кодом в том числе и кодом среды: https://colab.research.google.com/drive/1myp2aRAd0...

Вопрос задан более двух лет назад
144 просмотра

3 комментария

Подписаться 2 Сложный 3 комментария

Алан Гибизов @phaggi

Насколько я могу судить, проблем с самим python у вас нет, проблемы в подходах или настройках обучения. Рекомендую не ставить лишние тэги, чтобы не спамить десяткам тысяч подписчиков этого тэга совершенно не интересными им проблемами. Достаточно указать в наименовании вопроса, что работа идет с применением python, это позволит подписчикам тэгов про обучение и нейросети понять, могут ли они оказать вам помощь.
Также рекомендую прятать длинные портянки кода под спойлер.

Написано более двух лет назад
Михаил Морозов @ML_Karasik Автор вопроса

Алан Гибизов, спасибо за совет, я, если честно, на этой платформе недавно

Написано более двух лет назад
Алан Гибизов @phaggi

Михаил Морозов, подправил вам вопрос, лучше делать в таком стиле.

Написано более двух лет назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- вчера
- 36 просмотров
0

ответов
Нейронные сети

Простой
Flowise error 500?
- 1 подписчик
- вчера
- 56 просмотров
0

ответов
Нейронные сети

Простой
Нейросеть на ПК для обработки книжной литературы с последующей выдачей ответов по запросам?
- 1 подписчик
- 28 мая
- 177 просмотров
4

ответа
Arduino

+1 ещё

Средний
Сможет ли нейросеть написать скетч для Arduino mini мультиплексор нескольких COM портов в один?
- 2 подписчика
- 26 мая
- 275 просмотров
1

ответ
Python

+1 ещё

Средний
Как разработать нейросеть для антиспуфинга (Face-antispoofing)?
- 1 подписчик
- 24 мая
- 169 просмотров
0

ответов
Нейронные сети

Простой
В какой нейросети можно делать видеофильмы?
- 1 подписчик
- 22 мая
- 190 просмотров
2

ответа
Нейронные сети

Простой
Как сделать чтобы Grok2 была доступной на бесплатном аккаунте?
- 1 подписчик
- 21 мая
- 191 просмотр
0

ответов
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 258 просмотров
1

ответ
Нейронные сети

Простой
Локальные нейросети для автоматизации. Что лучше использовать?
- 6 подписчиков
- 18 мая
- 4340 просмотров
2

ответа
WordPress

+2 ещё

Средний
Можно ли развернуть многошаговую ИИ-генерацию контента на WP?
- 1 подписчик
- 16 мая
- 274 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Инженер эксплуатации сети/Начинающий специалист

beeline • Владивосток

от 70 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Насколько я могу судить, проблем с самим python у вас нет, проблемы в подходах или настройках обучения. Рекомендую не ставить лишние тэги, чтобы не спамить десяткам тысяч подписчиков этого тэга совершенно не интересными им проблемами. Достаточно указать в наименовании вопроса, что работа идет с применением python, это позволит подписчикам тэгов про обучение и нейросети понять, могут ли они оказать вам помощь.
Также рекомендую прятать длинные портянки кода под спойлер.
Алан Гибизов, спасибо за совет, я, если честно, на этой платформе недавно
Михаил Морозов, подправил вам вопрос, лучше делать в таком стиле.

Answer 1 · 2023-06-02 08:19:54

В общем проблема, можно сказать, решена. Я просто решил использовать не tf-agents а keras-rl2 и всё нормально работает. Однако есть осадок, от того что так и не разобрался с tf-agents

Answer 2 · 2023-05-27 19:23:55

Я не смотрел код. Но могу предположить следующее. Возможно сеть пытается выучить наизусть все
пути ведущие к победе. Их порядка 8 тысяч.

Нужно ввести в сеть искусственные подсказки. Как в шахматах пару функций оценки позиции которые
говорят хорошая позиция или плохая получается на данном ходе. Например 2 крестика в ряд - это плюс один
к хорошей позиции. С учетом возможности поставить крестик в свободное место.

Я думаю даже в альфа-зеро такие вводили. Например учет камней.

В чем причина неэффективного обучения DQN-агента посредством python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт