Q-алгоритм
И успешное применение нейронных сетей для аппроксимации таблицы Q(S, a), реализованное Deep Mind в виде DQN
https://arxiv.org/abs/1312.5602
После этого было еще много разных статей, которые решали всякие проблемные моменты вроде действий с параметрами. Последнее, что я видел на эту тему - это архитектура A3C
https://arxiv.org/pdf/1602.01783.pdf
В инете можно найти посты с реализациями на разных языках и библиотеках.