Возьмём обратное распространение ошибки:
Кратко: Прогнали на выборке, потом градиентный спуск, находим самые плохие нейроны - подправляем, хорошие - усиливаем.
Дальше GA и NEAT тоже кратко: фитнесс функция, дальше скрещивание и мутация наиболее приспособленных.
Reinforcment Learning: агент, окружение, политика, НО как потом мы изменяем нейросеть, используя награждение? Отличие фитнесс функции от награды?
Давно это было могу наврать.
Есть сеть, которой на вход приходит несколько последних состояния среды и она предсказывает действие.
Потом можем каждый шаг обучать: заработали очки - положительная обратная связь; не чего в общем не произошло - немного штрафуем; умерли - большой штраф. Ну и дальше тут большое поле для экспериментов, за что ругать, а за что хватить и как сильно сеть.