Возможно ли дообучение модели на 2 из 4 классов?

Question

Сергей Соколов @sergiks

♬♬

Возможно ли дообучение модели на 2 из 4 классов?

Есть модель EfficientNet, обученная на ImageNet и переобученная различать картинки своих 4 классов. Справляется вполне неплохо. Но можно и нужно чуть получше.

Поступили новые, вручную разобранные изображения для только 2 из 4 классов.
35 одного класса и 425 другого. Может, это вообще слишком мало изображний, не стоит и пытаться на них до-обучать?

Пытаюсь дообучить модель на этих изображениях. Training : Validation = 0.8 : 0.2
Создал папку, с подпапками для каждого из 4 классов, но файлы, соотв. есть только в двух.
Использую Keras ImageDataGenerator и его метод flow_from_directory()

Создатель модели так же тренировал её рабочую версию на 3500 картинок и получил accuracy 0.98755

Но у меня результат — никакой: модель начинает ошибочной всё записывать в один из этих двух классов, даже изображения из ранее нормально узнаваемых двух нетронутых классов.

Во время обучения на training выдаёт минимальные потери и accuracy около 1, но на validation loss высокий и accuracy держится в районе всего 0.21 — 0.25

ЧЯДНТ?

Вопрос задан более трёх лет назад
270 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

4 комментария

Сергей Соколов @sergiks Автор вопроса

Спасибо за ответ.
Я в итоге добавил новые разобранные картинки к тем 3500, на которых сеть обучалась изначально, и переобучил на них всех, начиная с «чистой» модели EfficientNet и весов imagenet.

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса

P.S. Shuffle и seed в генераторах/итераторах использую.

Для тренировки ImageDataGenerator ещё всячески тормошит картинки: поворачивает, зеркалит искажает, яркостью мигает. Стоит ли использовать этот же генератор и для валидации, или валидировать лучше на неизменённых картинках?

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса

В общем, абстрактно от деталей реализации, правильно ли дообучать (не пере-обучать с нуля) модель, классифицирующую на N классов, образцами всего M классов из N? (M < N)

Написано более трёх лет назад
OLZ1 @OLZ1

В любом случае стоит попробовать разные варианты: подгрузка новых данных с последующей дополнительной тренировкой не должно занять много времени. А там смотреть на визализацию результатов.

Но у меня результат — никакой: модель начинает ошибочной всё записывать в один из этих двух классов, даже изображения из ранее нормально узнаваемых двух нетронутых классов.

В инете пишут, что причиной подобного является "странное поведение" слоя BatchNormalization. Если у вас такие же результаты (ссылка), то попробуйте решение, приведённое в следующей статье: ссылка.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 87 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 81 просмотр
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 162 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 286 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 227 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2020-02-27 10:43:52

Из вашего повествования вытекают по меньшей мере два вывода: либо "что-то не то" с данными, либо выбрана неверная конфигурация модели. При работе с несбалансированными данными выручает перетасовка. Попробуйте при тренировке модели перетасовать данные [history = model.fit(..., shuffle=True)] / flow_from_dataframe(..., shuffle=True). Я бы ориентировался на решения Keras, с которыми "расщёлкали" задачу набора MNIST [ссылка] с высокой точностью.

Возможно ли дообучение модели на 2 из 4 классов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт