Как правильно оформить функцию потерь в torch?

Question

Дмитрий @FerroPanda

Нейронные сети

Как правильно оформить функцию потерь в torch?

Есть нейронная сеть, на выходе 4 нейрона с активатором softmax. При обучении подаю батч на 100 примеров.
Если у меня есть готовые ответы, то обучение работает, но этот вариант не для меня. ))
В моём случае, я обрабатываю в отдельной функции ответы сети и получаю размер ошибки допустим 80%.
Как правильно оформить loss, чтобы на нём сработал backward и optimizer?

Вопрос задан более года назад
141 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Дмитрий @FerroPanda Автор вопроса

вы пояснение к вопросу не читали? или что в нём не понятно? ... ваш ответ похож на современные корпоративные стандарты.

Написано более года назад
rPman @rPman

информации недостаточно, точнее все сказанное показывает что вы обучили нейронную сеть и функция потерь в процессе обучения хорошо уменьшилась, но на реальных задачах ошибка высока - причина это именно то что я сказал в ответе

сеть переобучена - это фейл, и менять функцию ошибки скорее всего тут бесполезно

Написано более года назад
Дмитрий @FerroPanda Автор вопроса

Нет, совсем не так.
Есть классическое обучение с учителем - данные + правильный ответ. На разнице ответа сети и правильного ответа оптимизируют параметры сети.
У меня правильных ответов нет - я их вычисляю "на лету" по ответам нейронной сети. Получив несколько ответов с батча, я высчитываю эффективность НН и оцениваю в диапазоне от отлично до плохо. И вот получив этот ответ мне нужно как-то запихнуть это в loss, чтобы отработали backward и optimizer.
В torch loss просто цифрой не прокатывает, а нужен тензор с градиентами и что-то ещё.
Вот и вопрос как правильно сформировать эту переменную loss.

Написано более года назад
rPman @rPman

это так сложно в вопрос добавлять такую информацию?

если что у меня практически такой же вопрос висит в списке вопросов, без ответа ;)

Написано более года назад
Дмитрий @FerroPanda Автор вопроса

rPman, если вы прочитали только первые две строчки описания, то это непонятно. Если прочитали целиком и работаете с torch, то вопрос очевиден по последним двум строчкам.
Принципиальная разница между нашими вопросами - я знаю какой функционал мне нужен и спрашиваю как он работает в torch, а у вас есть просто идея, но вы не знаете как её реализовать.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Простой
Какая нейросеть умеет в дизайн?
- 1 подписчик
- 04 мая
- 127 просмотров
2

ответа
Python

+1 ещё

Средний
В Coqui TTS есть поддержка русского языка для озвучки текста?
- 1 подписчик
- 04 мая
- 85 просмотров
1

ответ
Нейронные сети

Средний
В процессе работы нейросетевых моделей насколько активно идёт процесс обмена данными по PCIe с видеокартой?
- 1 подписчик
- 02 мая
- 66 просмотров
2

ответа
Электроника

+1 ещё

Простой
Какие нейронки или программы смогут восстанови эл. схему по фото платы?
- 4 подписчика
- 30 апр.
- 846 просмотров
3

ответа
Android Studio

+1 ещё

Средний
Возможно ли в android studio сделать что то подобное как grad-cam в python?
- 1 подписчик
- 28 апр.
- 66 просмотров
0

ответов
Нейронные сети

Простой
Есть ли нейросеть, с функционалом аналогичным программному комплексу Revit?
- 1 подписчик
- 27 апр.
- 84 просмотра
1

ответ
Python

+1 ещё

Простой
Почему Python не изменяет переменные в цикле?
- 2 подписчика
- 27 апр.
- 947 просмотров
0

ответов
Нейронные сети

Простой
Какая нейронка лучше заменяет лица?
- 1 подписчик
- 27 апр.
- 131 просмотр
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- 18 апр.
- 436 просмотров
4

ответа
Нейронные сети

Простой
GUI для DeepSeek — есть ли?
- 5 подписчиков
- 17 апр.
- 5648 просмотров
4

ответа
Показать ещё Загружается…

Инженер эксплуатации сети/Начинающий специалист

beeline • Владивосток

от 70 000 ₽

Content Marketing Specialist

MS Dev

от 1 000 до 2 000 $

Аналитик 1С

SM Lab • Москва

от 200 000 ₽

Если нет кода python, не ставьте тэг python.

Answer 1 · 2023-06-12 16:28:25

Сам разобрался.
В итоге всё сводится к тому, чтобы в своей какой-то функции обработать ответы сети, оценить их и самостоятельно высчитать ошибку. Потом взять любой ответ сети, на его основе создать свой правильный ответ, в сравнении с которым будет ошибка нужного нам размера, и потом это всё запихнуть в функцию потерь. Вся фишка в том, что к ответам сети привязаны графы их получения, т.е. в тензоре ответа сети есть вся последовательность как он получен. И на основании правильного ответа, ответа сети и этого графа, привязанного к ответу сети, выполняется обратное распространение ошибки. Нет графа - нет обучения. ))
Ещё один момент - если в сети используется какой-то не типовой не дифференцируемый слой, то штатная оптимизация тоже не будет работать, но при этом никаких ошибок не покажет.
В моём случае с выходной активацией softmax это оказалось не очень удачным вариантом, потому что допустим при ошибке 0,2 я не смог придумать как правильно создать целевой ответ.
Условный код как это работает:

optimizer.zero_grad()
answers = agent.forward(train_data)
#вычисляем ошибку на основе ответов сети в какой-то своей функции f(). 
#Получаем например 0,2 - типа ошибка 20%
nn_error = f(answers)
#берём первый из ответов сети, который содержит граф расчётов
nn_ans = answers[0]
#тут нам нужно создать правильный ответ - возможны вариант и нужно придумать правильно
#чтобы получить правильный можно как прибавить 20%, так и вычесть. Я прибавил.
target_ans = nn_ans * (1 + nn_error)
#функцию потерь можно сделать как свою, так и использовать штатную
f_loss = nn.L1Loss()
loss = f_loss(nn_ans, target_ans)
loss.backward()
optimizer.step()
#print(list(agent.parameters()))

Answer 2 · 2023-06-10 19:27:20

Твоя обучающая выборка должна быть разделена на две части (максимально случайно/равномерно), бОльшая (на порядок или два) - обучающая, меньшая - тестовая. Обучение проходишь только на обучающей.

После каждого прохода или через несколько, сохраняешь функцию ошибки для обеих обучающих выборок, строишь графики и смотришь динамику, если скорость падения ошибки для обучающей выборки будет падать а вот для тестовой перестанет и даже начнет расти - это явный признак переобученности (как я знаю есть и другие способы детекта этого).

Это значит либо обучающая выборка недостаточна - т.е. нужно больше данных (100 это очень мало, что там за задача?) и данные должны лучше и равномернее описывать предметную область, либо структура/размер сети (внутренних слоев и их количество) неверное (в обе стороны) и нужны эксперименты с изменениями, смотреть динамику становится ли лучше если усложнять/упрощать сеть.

Как правильно оформить функцию потерь в torch?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт