Задать вопрос
@d0ale3lfnd

Как лучше реализовать обучение с подкреплением?

Я выбрал Q-обучение для того, чтобы научить бота играть в крестики-нолики (спортивный интерес, хотя на самом деле это не имеет смысла)

У меня возникли сложность.
1) В виде чего хранить Q[s,a] ? Массив, словарь?
2) Предыдущее состояние - поле, до хода противника?
3) Текущее состояние - поле, после хода противника?
  • Вопрос задан
  • 97 просмотров
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Специалист по Data Science плюс
    17 месяцев
    Далее
  • Skillbox
    Профессия Machine Learning Engineer
    12 месяцев
    Далее
  • Центр непрерывного образования ФКН НИУ ВШЭ
    Глубинное обучение
    10 недель
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы