Большинство материала по теме вы найдете в англоязычном сегменте интернета. Хотя и на русском статей сейчас полно.
Вот перечислены алгоритмы для обучения:
https://en.m.wikipedia.org/wiki/Reinforcement_lear...
Некоторые реализованы тут:
https://github.com/keras-rl/keras-rl