Даже для маленькой (по нынешним меркам) нейросети обучение градиентными методами будет быстрее на несколько порядков по сравнению с ГА (я подозреваю, что как минимум на 2-3 десятичных порядка быстрее). Когда же речь зайдет о больших нейросетях..... Там процесс обучения итак медленный, а замедлять его при помощи ГА не стоит. Тут в комментариях начинают спорить про дифференцируемость и про оптимизацию. Все нынешние нейросети делаются (проектируются) из расчета на градиентное обучение (метод обратного распространения ошибки), т.к. это сейчас самый быстрый способ. Оптимизация это, видимо, подбор гиперпамаретров? Да, он может делаться через ГА, но не делается. Для ГА характерно слишком большое число итераций, намного больше 100, а каждая итерация может занимать сутки. Слишком долго. По моим наблюдениям для подбора оптимальных параметров сильно нелинейной функции от 50 переменных ГА нужно более миллиона итераций. Для 18 переменных - 50 тысяч, для 23 - 200 тысяч.
lit999.narod.ru/soft/ga/index.html - страница с моими старыми экспериментами (сравнение ГА с алгоритмом роя пчел) и
https://imageman72.livejournal.com/5373.html.
Но если нам нужно сделать какую-то
совсем нестандартную нейросеть, при этом очень крохотную - может и пригодится ГА (было у меня и такое решение, но я не сравнивал его с градиентным спуском).