Q-алгоритм
И успешное применение нейронных сетей для аппроксимации таблицы Q(S, a), реализованное Deep Mind в виде DQN 
https://arxiv.org/abs/1312.5602 
После этого было еще много разных статей, которые решали всякие проблемные моменты вроде действий с параметрами. Последнее, что я видел на эту тему - это архитектура A3C 
https://arxiv.org/pdf/1602.01783.pdf 
В инете можно найти посты с реализациями на разных языках и библиотеках.