Используют ли при обучении нейронных сетей генетические алгоритмы?

Question

Евгений Лернер @ehevnlem

Программирую с 1975, в интернете с 1993.

Используют ли при обучении нейронных сетей генетические алгоритмы?

Здравствуйте! Обучение нейронной сети это задача поиска экстремума функции многих переменных. Сейчас наиболее примениемые это генетические алгоритмы. Они не самые эффективные, но хорошо обходят овраги и локальные экстремумы. Но я больше слышу о градиентных методах при обучении.
Используют ли генетические алгоритмы?

Вопрос задан более двух лет назад
271 просмотр

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

3 комментария

Евгений Лернер @ehevnlem Автор вопроса

Дифференциальная эволюция сейчас по сути стандарт.безрахдично какая архитектура сети надо решать задачу оптимизации. Знаете ли вы примеры использования генетических алгоритмов ? Рассуждения не очень интересны

Написано более двух лет назад
mayton2019 @mayton2019

Евгений Лернер, любая инженерная деятельность - это ГА. Мне странно что вы этого не замечаете.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

mayton2019, хотелось бы получить ответ на вопрос

Написано более двух лет назад

12 комментариев

Евгений Лернер @ehevnlem Автор вопроса

Параметров гораздо больше десятка. Но эффективные методы могут застрять в локальном экстремума или овраге. Есть информация как с этим борются?

Написано более двух лет назад
freeExec @freeExec

Евгений Лернер, Используют разные оптимизации и делают несколько попыток. Генетический алгоритм абсолютно так же застревает.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

freeExec, застревает но меньше. Аналогично имитация отжига, тоже статистический и ещё менее эффективный. Например градиентный спуск часто упоминают, но он очень не надёжный. Хотелось бы иметь более конкретную информацию

Написано более двух лет назад
freeExec @freeExec

Евгений Лернер, не вижу причин, почему он застревает меньше. Всё равно варианты твоих коэффициентов находятся в некой окрестности, так что у тебя тот же локальный минимум.

Написано более двух лет назад
Максим Припадчев @Maksim_64

Евгений Лернер, кто вам сказал что генетические алгоритмы наиболее применимы? Они применяются в частном случае, когда надо оптимизировать на дискретных структурах. Стохастический градиент прекрасно различает локальные экстремумы и глобальные особенно на дифференцируемых функциях . А если мы будем говорить о нейронках то там вообще Adam используется как правило.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Максим Припадчев, спасибо. Многое стало понятно. Те добавили случайность в градиентный спуск чтоб выскакивать из ям. Изучаю adam.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Максим Припадчев, я вижу что вы в курсе дела . Скажите adam это сопряжённые градиенты ?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Евгений Лернер, Ну в целом обычный градиент это дело такое "в качестве обучающего алгоритма оптимизации". На практике используют стохастический потому что он не видит весь датасет то есть намного быстрее. Но дело не только в этом вы правильно уловили мысль, если у нас много локальных экстремумов, если походы к экстремумам не плавные то стохастический имеет больше шансов найти глобальный потому что ну упрощенно говоря стартовых точек у нас несколько от которых он начинает двигаться в стороны экстремума.

Adam ну в первую очередь это расширение для стохастического градиента с основным различием что у него ну например отдельный шаг обучения для каждого параметра, потом он их трансформирует в экспонентнтую среднюю скользящую градиента и квадрат градиента. В общем не буду пытаться сделать то что лучше написано в различных руководствах по нему. Но основной сейчас он. А обычный градиентный спуск это сугубо для студентов.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Максим Припадчев, да теперь все ясно. Мне кажется что когда есть уверенность что ты около цели надо использовать методы второго порядка. Ваше мнение ?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Евгений Лернер, Что вы имеете ввиду под методами второго порядка? Тут столько различных терминологий и техник, что надо все уточнять. Я так понимаю речь о тесте производной второго порядка на экстремумы.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Максим Припадчев, это методы Ньютона и сопряжённых градиентов . Быстро сходятся, для квадратичных функций за один шаг. если никакой гадости рядом нет то вроде хорошо было бы использовать .от дифференциальной эволюции отказываюсь. Надёжный но медленный

Написано более двух лет назад
Максим Припадчев @Maksim_64

Евгений Лернер, Ну я подозреваю, что в целом существует много разных имплементаций, надо открывать документации и читать, что как сделано и какими математическими свойствами обладает. Метод Ньютона помню такой на практике не используется конечно, там обязательно должен существовать вторая производная , а вот сопряженные градиенты прямо сейчас в голову не приходят, надо гуглить и смотреть что это.

В любом случае было интересно пообщаться, непосредственно алгоритмы оптимизации не мой профиль, я использую их но в деталях с ними не работаю, я все таки аналитик. Спасибо за беседу.

Написано более двух лет назад

6 комментариев

Евгений Лернер @ehevnlem Автор вопроса

Тут написали что чаще используют afam, который отчасти статистический. Градиентный очень уязвим к оврагам и докалам. Дело не только в дииференцируемости

Написано более двух лет назад
Максим Припадчев @Maksim_64

, т.к. все функции дифференцируемые,

Нет такого что все функции дифференцируемы, алгоритмы оптимизации имеют даже классификацию. derivative free methods для оптимизаций не дифференцируемых функций.

Написано более двух лет назад
Александр Скуснов @AlexSku

Максим Припадчев, При чём тут оптимизация, когда речь шла о нейронных сетях? PyTorch строит дерево, для каждого слоя автоматически находится градиент. В чём проблема? Градиентный спуск всегда будет.

Написано более двух лет назад
Максим Припадчев @Maksim_64

Александр Скуснов, При чем здесь PyTorch это библиотека которая предоставляет API для работы нейронными сетями. А вот оптимизация всегда при чем. будь то нейронные сети или классические алгоритмы машинного обучения, Различные функции оптимизации используются в том числе и нейронных сетях. Так вот такого что функция которую необходимо оптимизировать всегда дифференцируема, НЕТ. Потом везде где необходимо оптимизировать например относительно сочетания оптимальных параметров там вообще ГА очень хороший кандидат.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Александр Скуснов, нейронная сеть это система нелинейных уравнений, а обучение это нахождение оптимального вектора параметров.класстчнсепя задачп

Написано более двух лет назад
Одиночка Айс @daemonhk

Евгений Лернер,
класстчнсепя задачп

спать идите уже)

Написано более двух лет назад

4 комментария

Евгений Лернер @ehevnlem Автор вопроса

Вы говорите о скорости , этим никто не спорит. Проблема в лвоажности и локальных экстремумах. Вы анализировали это?

Написано более двух лет назад
imageman @imageman

Напрямую не анализировал. Но какой смысл? В чем польза узнать, что ГА лучше справляется с локальными экстремумами?

Максимум на что можно рассчитывать, это соединить градиентные методы и ГА (уменьшим ошибку в 2 раза, увеличим время обучения в 10000 раз).

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

imageman, га справляется лучше. Поэтому широко используется. Я думал соединить, но тут подсказали adam. Это разновидность статистического градиента. Наиболее широко испоьлзуетс в нс

Написано более двух лет назад
imageman @imageman

Евгений Лернер, Поэтому широко используется..... в очень узких кругах. Специально сползал в гугл трендс - градиентный спуск в разы популярнее ГА.

Что касается самого ГА: он (видимо) незаменим, когда оптимизируемая функция у нас черный ящик, т.е. мы не можем найти производные, градиенты и т.п. А в реальности функции еще не имеют монотонности, непрерывности и прочих важных вещей для быстрой оптимизации. В этих случаях генетический алгоритм это, видимо, лучший выбор.

Нейросети мы можем проектировать сами, закладывая структуру, которую [относительно] легко оптимизировать.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 275 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 124 просмотра
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 100 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 87 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 72 просмотра
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 98 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 84 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 162 просмотра
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1414 просмотров
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 262 просмотра
4

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Lead Тестировщик/QA инженер

EnerGO Technologies

от 200 000 ₽

Answer 1 · 2023-07-17 19:51:55

Я думаю да. Более того. Если нас попросят перечислить конкретные алгоритмы генетики - то
оказывается что мы ничего назвать не можем. ГА - это даже не алгоритм а это просто подход
к селекции чего либо. Например когда вы выбираете в магазине железа себе материнку и
проц и видяшку - вы решаете ГА. Вы выбираете. Делаете кроссовер (из двух удачных конфигураций
берете части) и делаете мутации (берете и что-то меняете). И в конце выбираете по цене
и по индексу бенчмарка что-то себе приятное. Лучшая хромосома.

Тоже самое при обучении. Какую топологию сети взять? Сверточные. Больцманы. Хопфилда.
Сколько скрытых слоёв? Какую функцию активации? Это все селекция и кросс и мутация.
Тоесть вы будете как Мичурин среди яблонь ходить и выбирать лучшие образчики конфигураций
чтоб совокупить их и родить новую сеть-мутанта.

Answer 2 · 2023-07-17 20:00:45

freeExec @freeExec

Участник OpenStreetMap

Использовать то можно, но он не так эффективен, особенно если параметров больше десятка.

Ответ написан более двух лет назад

12 комментариев

Answer 3 · 2023-07-17 21:15:00

Не используются, т.к. все функции дифференцируемые, поэтому всегда можно подсчитать градиент и использовать метод обратного распространения ошибки.

Answer 4 · 2023-07-20 18:43:04

Даже для маленькой (по нынешним меркам) нейросети обучение градиентными методами будет быстрее на несколько порядков по сравнению с ГА (я подозреваю, что как минимум на 2-3 десятичных порядка быстрее). Когда же речь зайдет о больших нейросетях..... Там процесс обучения итак медленный, а замедлять его при помощи ГА не стоит. Тут в комментариях начинают спорить про дифференцируемость и про оптимизацию. Все нынешние нейросети делаются (проектируются) из расчета на градиентное обучение (метод обратного распространения ошибки), т.к. это сейчас самый быстрый способ. Оптимизация это, видимо, подбор гиперпамаретров? Да, он может делаться через ГА, но не делается. Для ГА характерно слишком большое число итераций, намного больше 100, а каждая итерация может занимать сутки. Слишком долго. По моим наблюдениям для подбора оптимальных параметров сильно нелинейной функции от 50 переменных ГА нужно более миллиона итераций. Для 18 переменных - 50 тысяч, для 23 - 200 тысяч. lit999.narod.ru/soft/ga/index.html - страница с моими старыми экспериментами (сравнение ГА с алгоритмом роя пчел) и https://imageman72.livejournal.com/5373.html.

Но если нам нужно сделать какую-то совсем нестандартную нейросеть, при этом очень крохотную - может и пригодится ГА (было у меня и такое решение, но я не сравнивал его с градиентным спуском).

Используют ли при обучении нейронных сетей генетические алгоритмы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт