@d0ale3lfnd

Как лучше реализовать обучение с подкреплением?

Я выбрал Q-обучение для того, чтобы научить бота играть в крестики-нолики (спортивный интерес, хотя на самом деле это не имеет смысла)

У меня возникли сложность.
1) В виде чего хранить Q[s,a] ? Массив, словарь?
2) Предыдущее состояние - поле, до хода противника?
3) Текущее состояние - поле, после хода противника?
  • Вопрос задан
  • 96 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы