Возьмём обратное распространение ошибки:
Кратко: Прогнали на выборке, потом градиентный спуск, находим самые плохие нейроны - подправляем, хорошие - усиливаем.
Дальше GA и NEAT тоже кратко: фитнесс функция, дальше скрещивание и мутация наиболее приспособленных.
Reinforcment Learning: агент, окружение, политика, НО как потом мы изменяем нейросеть, используя награждение? Отличие фитнесс функции от награды?