Почему обучение модели застревает на валидационных потерях в 0.02?

Question

Andrei1penguin1 @Andrei1penguin1

Почему обучение модели застревает на валидационных потерях в 0.02?

Добрый день, для обучения используется keras в составе tensorflow, задача-регрессия ограничивающего прямоугольника, вот модель:

inputs = Input(shape=(300, 300, 1))
    x = DepthwiseConv2D((3, 3), padding="same")(inputs)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = Conv2D(32, (1, 1), strides=2, padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = DepthwiseConv2D((3, 3), padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = Conv2D(64, (1, 1), strides=2, padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = DepthwiseConv2D((3, 3), padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = Conv2D(128, (1, 1), strides=2, padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = DepthwiseConv2D((3, 3), padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = Conv2D(128, (1, 1), strides=2, padding="same")(x)
    x = BatchNormalization()(x)
    x = Activation("relu")(x)
    x = Flatten()(x)
    x = Dense(512)(x)
    out = Dense(4, activation="sigmoid")(x)
    model = Model(inputs, out)
    model.compile(optimizer=RMSprop(learning_rate=0.001), loss="mse", metrics=[iou], run_eagerly=True)

То есть архитектура довольно схожа с MobileNet, обучение происходит при batch_size=128 и количество тренировочных и валидационных данных 2000 и 750 соответственно Результат модели-выдача x,y верхнего левого и правого нижнего углов, все метки нормализованы между 0 и 1 (сигмоида обоснована) Тем не менее уже после первых нескольких эпох (от 1 до 3) валидационная функция потерь застревает на 0.02 (0.0199-0.0203) и никуда из этого диапазона не выходит При этом другие модели работают хорошо Подскажите пожалуйста, в чем загвоздка?

Вопрос задан более трёх лет назад
68 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Andrei1penguin1 @Andrei1penguin1 Автор вопроса

Не очень понял про рамки и разное соотношение сторон
Модель результат может выдать
Парадоксально, но если из этой модели убрать все слои точечной свертки, она начнет работать
Но ведь это бред

Написано более трёх лет назад
freeExec @freeExec

Andrei1penguin1, ну есть рамка высокая для человека, есть рамка приплюснутая для машины. Сеть говорит какую рамку лучше использовать и насколько её поджать

Написано более трёх лет назад
Andrei1penguin1 @Andrei1penguin1 Автор вопроса

freeExec, Так математически такая же логика получается-находится одна координата, а затем нужная ширина и высота для захвата объекта

Написано более трёх лет назад
freeExec @freeExec

Andrei1penguin1, ну математически можно и сферическими координатами описать, и сеткой разграфить. Будет ли это проще, практика говорит, что нет.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- 2 часа назад
- 56 просмотров
1

ответ
Python

+2 ещё

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- 16 часов назад
- 96 просмотров
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 158 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 132 просмотра
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 108 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 71 просмотр
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 240 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 136 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2022-07-21 19:43:53

Может сеть не способна выдать нужный вам результат.
И потом, обычно боксы делают не как координаты углов, а как местоположение объекта и подгонку заранее заготовленных рамок с разными отношениями сторон.

Почему обучение модели застревает на валидационных потерях в 0.02?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт