Как понять какие параметры менять чтобы добиться сходимости сети?

Question

Александр Амплеев @Ampleev

Нейронные сети

Как понять какие параметры менять чтобы добиться сходимости сети?

Вот делаю по примеру из этих 2 статей: https://habr.com/ru/post/312450/ https://habr.com/ru/post/313216/

Коротко контекст:

Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.

Не понимаю как добиться сходимости. Нейроны все в точности как в статьях. Пробывал менять скорость обучения, момент. Не помогает. https://habr.com/ru/post/313216/#comment_20654001 вот здесь задал вопрос автору, но не уверен, что получу от него ответ, поэтому дублирую здесь. Заранее благодарен за ответ.

Вопрос задан более трёх лет назад
77 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

origami1024 @origami1024

Ты эти две статьи сам не читал нормально, чего ты ссылки на них тут приводишь?
Сформулируй конкретный вопрос.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

origami1024, А как ты понял, что я их сам не читал? Мой вопрос сформулирован здесь: https://habr.com/ru/post/313216/#comment_20654001

Написано более трёх лет назад
origami1024 @origami1024

Ты делаешь вопрос, по сути относительно простой, но чтобы его кому-то понять в таком виде как ты его записал, нужно прочитать 20 станиц контекста со внешних источников (прочитать их за тебя между прочим).
Сформулируй чтобы контекст весь был умещен в сам вопрос, чтобы кто-то ответил

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.

Написано более трёх лет назад
origami1024 @origami1024

Александр Амплеев,
У тебя по одному биас-нейрону на входном и первом слоях есть или ты 2мя нейронами XOR пытаешься смоделировать?

Потому что на приведенной тобой схеме биас-нейронов нет. XOR на 2х нейронах не может обучиться физически.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Александр Амплеев @Ampleev Автор вопроса

Кажется, нашел в чем может быть проблема. Он в примере ошибку считает не по всему сету, а только по одной итерации - скорее всего это и ввело в заблуждение.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Нет, похоже не это.. Или это, окончательно запутался.

Вот у нас есть сет с 4 возможными комбинациями на входе: 01, 11, 10, 00.
Мы подаем на вход 01, высчитываем ошибку, потом что мы делаем? Сразу обновляем веса? Или сначала подаем оставшиеся комбинации (3 штуки) потом 4 значения ошибки используем для подсчета одного значения нормализованного? Или как?

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Александр Амплеев, в идеальном мире обучение происходит сразу на всем датасете - прогнали примеры, усреднили градиенты, изменили веса, повторили.
В реальном мире датасеты обычно слишком большие (или иногда доступны только в потоковом режиме), чтобы так можно было бы делать, поэтому "истинные" градиенты аппроксимируют градиентами мини-батча - берут небольшое количество примеров, делают шаг спуска, берут следующий набор примеров, делают еще шаг. При этом градиенты мини-батча получаются более зашумленными, но дистанция все вернет.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Ну вот в этом кокретном примере как правильно? есть полный сет - это 00, 01, 10, 11. Т.е. всего 4 возможных комбинации на 2 входных нейронах.

Вот даем мы 00 на входы, считаем ошибку, нужно ли сразу обновлять веса? Или нужно дать последовательно еще с 3 вариантами на входе, посчитать еще 3 ошибки, нормализовать и только после этого обновлять веса?

Почему мне кажется это странным - это потому, что в формулах используются значения на выходах нейронов. Но на выходах остаются значения с последней четвертой комбинации и, кажется, здесь нужно как-то использовать толи все 4 значения и также их как-то нормализовывать, но с другой стороны в теории пишут что сразу надо обновлять все веса после прогона одного. В итоге не понятно что делать надо.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Александр Амплеев, И так, и так будет работать, но чем больше примеров в батче (пачке примеров для одного шага обучения) - тем точнее.
В формулах обычно не акцентируется, что обучение идет батчами, кроме тех случаев, где это важно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 76 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 77 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 143 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 235 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 64 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 62 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 218 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 158 просмотров
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Ты эти две статьи сам не читал нормально, чего ты ссылки на них тут приводишь?
Сформулируй конкретный вопрос.
origami1024, А как ты понял, что я их сам не читал? Мой вопрос сформулирован здесь: https://habr.com/ru/post/313216/#comment_20654001
Ты делаешь вопрос, по сути относительно простой, но чтобы его кому-то понять в таком виде как ты его записал, нужно прочитать 20 станиц контекста со внешних источников (прочитать их за тебя между прочим).
Сформулируй чтобы контекст весь был умещен в сам вопрос, чтобы кто-то ответил
Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.
Александр Амплеев,
У тебя по одному биас-нейрону на входном и первом слоях есть или ты 2мя нейронами XOR пытаешься смоделировать?

Потому что на приведенной тобой схеме биас-нейронов нет. XOR на 2х нейронах не может обучиться физически.

Answer 1 · 2019-09-23 09:21:28

Может быть, ошибка все-таки где-то в коде?
То, что модель сходится на одном и том же примере, ни о чем не говорит - она просто подстраивает bias на выходном нейроне. Входные данные не нужны, если на выходе всегда одно и то же.
Попробуйте инициализировать веса какими-нибудь известными значениями, самостоятельно посчитать выход/градиенты аналитически и сравнить с тем, что происходит при моделировании.

Как понять какие параметры менять чтобы добиться сходимости сети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт