Обучение модели машинного обучения прерывается без ошибки. Что может быть причиной и как это решить?

Question

1bENZ0 @1bENZ0

Обучение модели машинного обучения прерывается без ошибки. Что может быть причиной и как это решить?

Читаю книгу Шолле про глубое обучение с использованием Keras. Дошел до обучения сверточной нейронной сети с нуля на небольшом наборе данных. При обучении модели машинного обучения на шаге №63 происходит прерывание обучения, и при этом не возникает никакой явной ошибки или сообщения об ошибке. При уменьшении batch_size до 16 все проходит хорошо, но обучение становиться крайне не эффективным. Пишу код на сайте Kaggle(gpu p100). Почему так происходит и как можно это исправить?

model = models.Sequential()
model.add(layers.Conv2D(32, (3,3), activation='relu', input_shape=(150,150,3)))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(64, (3,3), activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(128, (3,3), activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(128, (3,3), activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Flatten())
model.add(layers.Dropout(0.5))#thinning
model.add(layers.Dense(512,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid'))

model.compile(loss='binary_crossentropy',
             optimizer=optimizers.RMSprop(learning_rate=1e-4),
             metrics=['acc'])

train_datagen = ImageDataGenerator(
rescale=1./255,
rotation_range=40,
width_shift_range=0.2,
height_shift_range=0.2,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(train_dir,
                                                   target_size=(150,150),
                                                   batch_size=32,
                                                   class_mode='binary')
validation_generator = test_datagen.flow_from_directory(validation_dir,
                                                        target_size=(150,150),
                                                        batch_size=32,
                                                        class_mode='binary')
history = model.fit(train_generator,
                    steps_per_epoch = 100,
                    epochs = 100,
                    validation_data=validation_generator,
                    validation_steps = 50)

Вопрос задан более года назад
261 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

3 комментария

1bENZ0 @1bENZ0 Автор вопроса
Запустил код в колабе и там уже вылетело 2 ошибки:

WARNING:tensorflow:Your input ran out of data; interrupting training. Make sure that your dataset or generator can generate at least `steps_per_epoch * epochs` batches (in this case, 10000 batches). You may need to use the repeat() function when building your dataset. WARNING:tensorflow:Your input ran out of data; interrupting training. Make sure that your dataset or generator can generate at least `steps_per_epoch * epochs` batches (in this case, 50 batches). You may need to use the repeat() function when building your dataset.

Как я понимаю генератор проходит по всем данным и останавливается из за их отсутсвия. Нужно как то заново его пустить, но есть ли смысл? Возможно с момента написания книги что то изменили и теперь оно работает не так как надо. Так же попробовал learning_rate уменьшить в 1.5 раза и размер пакетов поставил 20. Теперь за эпоху лосс уходит на 0.007(0.7%) этого мало или достаточно? Думаю если решить проблему с генератором, то получится разобрать пример так как хотел этого автор книги xD
Написано более года назад
1bENZ0 @1bENZ0 Автор вопроса

Так же еще напомню что там используется ограниченный тренировочный датасет 2000 изображений всего. Суть примера - научиться работать с ограниченным по размеру датасетом используя различные методы оптимизации(прореживание, расширение данных).

Написано более года назад
Максим Припадчев @Maksim_64

1bENZ0, Ну видишь, уже хоть предупреждения. Попробуй все что пишут из ответов вот здесь. https://stackoverflow.com/questions/59864408/tenso....

Насчет loss это номинальные цифры. Там направление и форма важна, нет такого много или мало. На тренировчном сете твой loss стремится к нулю на валидационном с какого то момента начинает расти U-формы.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему у меня программа вообще не реагирует на свойства в python?
- 1 подписчик
- 5 часов назад
- 40 просмотров
2

ответа
Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- вчера
- 130 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 118 просмотров
1

ответ
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 70 просмотров
1

ответ
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 232 просмотра
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 147 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 50 просмотров
0

ответов
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 192 просмотра
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 89 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 269 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.6

Answer 1 · 2023-09-25 17:06:21

Я тоже читал эту книгу, класс книга. В colab запускал? У тебя там не заглушены сообщения об ошибках или предупреждениях? Ну а так остается только экспериментировать попробуй learning rate ему поменять. Попробуй optimizer поменять. Например увеличил вдвое batch_size, увеличь вдвое и learning rate. Скорее всего схождения не происходит, точнее происходит но слишком медленно, ну и видимо, notebook подвисает или там какая нибудь остановка предусмотрена. Одназначно увеличивай learning rate (линейно с увеличением batch), после того как в colab попробуешь, конечно.

Обучение модели машинного обучения прерывается без ошибки. Что может быть причиной и как это решить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт