Обучение нейронной сети — как интерпретировать результат?

Question

Дмитрий @FerroPanda

Обучение нейронной сети — как интерпретировать результат?

Тренирую сеть. Есть такие вот результаты. Понятно, что всё плохо, но не понятно как, на сколько и почему.
Пробовал разное количество слоёв, нейронов в слое. Даже дропаут пробовал, хотя переобучением тут не пахнет. Цифры от указанных ниже не отличаются (плюс минус один процент).

Epoch 1/100
200000/200000 [=======] - 7s 37us/step - loss: 1.0738 - acc: 0.4021 - val_loss: 1.0683 - val_acc: 0.4061
Epoch 51/100
200000/200000 [=======] - 7s 33us/step - loss: 1.0289 - acc: 0.4711 - val_loss: 1.0816 - val_acc: 0.3950
Epoch 100/100
200000/200000 [=======] - 6s 32us/step - loss: 0.9823 - acc: 0.5193 - val_loss: 1.1003 - val_acc: 0.3998

На учебных примерах обычно точность на первых эпохах взлетает до 70-90%, а у меня получается сразу 40%, а дальше телепается как слива в проруби. Чего сети не хватает? Какие возможны варианты?

И бонусный вопрос. Часто говорят, что сеть нужно долго обучать, иногда неделю и больше. С чем это как правило связано - с объёмом выборки или с количеством эпох?
Есть какое-то типовое количество эпох, после которых понятно, что не взлетит? Например, если рандомом подбирать гиперпараметры сети, то после скольки эпох можно уже делать выводы?

Вопрос задан более трёх лет назад
186 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Владимир Олохтонов @sgjurano

Без кода и данных, максимум что вы можете получить - гадание на кофейной гуще.

Единственное, что могу сказать - loss-функция у вас уменьшается, значит вы не напутали со знаком :)

Написано более трёх лет назад
Дмитрий @FerroPanda Автор вопроса
Собственно гадание мне и нужно, чтобы понять какие вектора развития возможны.
Код очень простой
model = Sequential() model.add(Dense(1502, input_dim=1502, activation="relu", kernel_initializer="normal")) model.add(Dropout(0.2)) model.add(Dense(1000, activation="relu", kernel_initializer="normal")) model.add(Dropout(0.2)) model.add(Dense(3, activation="softmax", kernel_initializer="normal")) model.compile(loss="categorical_crossentropy", optimizer="SGD", metrics=["accuracy"]) print (model.summary()) model.fit(X_train, Y_train, batch_size=500, epochs=1000, validation_split=0.2, verbose=1)

В данной конфигурации при 200-х эпохах заметно переобучение - точность поднимается с 0,4 до 0,88, валидация наоборот снижается с 0,41 на 0,36.
На входе вектор, на выходе, я думаю, что классификация. =)

Что значит "не напутал со знаком"?
И можете что-то сказать про вторую половину вопроса?
Написано более трёх лет назад

Решения вопроса 1

2 комментария

Дмитрий @FerroPanda Автор вопроса

Дропаут пробовал, но правда маленький - 0,2. Особо не сказалось на результате. В принципе этот результат с дропаутом и есть (код в предыдущем комментарии). Adam тоже пробовал - существенной разницы не заметил. Во всяком случае пока что.
Недельный срок обучения зависит от размера сети и объёма данных - это понял. Тогда есть какое-то типовое значение количества эпох для тестового обучения? Типа 5-10 или бывает так, что обучение идёт "ступеньками"?

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Количество эпох зависит от объема обучающих данных, от сложности задачи, от размера минибатча. Обычно batch_size берут в районе нескольких десятков, а не 500. Меньше batch_size => больше минибатчей в одну эпоху => больше раз изменятся веса слоев.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 145 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 120 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 104 просмотра
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 67 просмотров
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 232 просмотра
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 146 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 143 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 233 просмотра
1

ответ
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- 15 авг.
- 146 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Без кода и данных, максимум что вы можете получить - гадание на кофейной гуще.

Единственное, что могу сказать - loss-функция у вас уменьшается, значит вы не напутали со знаком :)
Собственно гадание мне и нужно, чтобы понять какие вектора развития возможны.
Код очень простой
model = Sequential() model.add(Dense(1502, input_dim=1502, activation="relu", kernel_initializer="normal")) model.add(Dropout(0.2)) model.add(Dense(1000, activation="relu", kernel_initializer="normal")) model.add(Dropout(0.2)) model.add(Dense(3, activation="softmax", kernel_initializer="normal")) model.compile(loss="categorical_crossentropy", optimizer="SGD", metrics=["accuracy"]) print (model.summary()) model.fit(X_train, Y_train, batch_size=500, epochs=1000, validation_split=0.2, verbose=1)

В данной конфигурации при 200-х эпохах заметно переобучение - точность поднимается с 0,4 до 0,88, валидация наоборот снижается с 0,41 на 0,36.
На входе вектор, на выходе, я думаю, что классификация. =)

Что значит "не напутал со знаком"?
И можете что-то сказать про вторую половину вопроса?

Answer 1 · 2018-10-15 08:21:19

Раз есть оверфиттинг - попробуйте дропаут на побольше выкрутить. Между стандартными Dense-слоями 0.5 - традиционное значение. Видел статьи, где дропаут делали аж 0.8-0.9 как раз потому что данных мало было.
Еще попробуйте в качестве оптимизатора Adam.

Сети, которые обучают неделями, - это всякие монструозные конструкции, где штук 20 слоев по 500 нейронов в каждом. И десятки миллионов примеров для обучения.

Обучение нейронной сети — как интерпретировать результат?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт