Задать вопрос
@d0ale3lfnd

Как лучше реализовать обучение с подкреплением?

Я выбрал Q-обучение для того, чтобы научить бота играть в крестики-нолики (спортивный интерес, хотя на самом деле это не имеет смысла)

У меня возникли сложность.
1) В виде чего хранить Q[s,a] ? Массив, словарь?
2) Предыдущее состояние - поле, до хода противника?
3) Текущее состояние - поле, после хода противника?
  • Вопрос задан
  • 97 просмотров
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Stepik
    AI-программирование | Экспресс-курс
    2 недели
    Далее
  • Skillbox
    Нейросети: практический курс
    3 месяца
    Далее
  • Skillfactory
    Data Scientist с нуля до PRO
    25 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы