Я выбрал Q-обучение для того, чтобы научить бота играть в крестики-нолики (спортивный интерес, хотя на самом деле это не имеет смысла)
У меня возникли сложность.
1) В виде чего хранить Q[s,a] ? Массив, словарь?
2) Предыдущее состояние - поле, до хода противника?
3) Текущее состояние - поле, после хода противника?