Почему при последовательном создании моделей в Keras они каким-то образом между собой зависят, хотя, наверное, не должны?

Question

Sanders @Sanderses

student

Почему при последовательном создании моделей в Keras они каким-то образом между собой зависят, хотя, наверное, не должны?

У меня есть код, в котором я в функции создаю модель нейронной сети с заданными параметрами (количество слоёв и нейронов в них и подобное). Использую эту функцию для перебора моделей с целью найти лучшую модель (такое небольшое исследование). Например, начинаю с 2 слоёв по 11 нейронов, 2 слоя 12 нейронов, ... , 3 слоя 11 нейронов ... и так далее.
При этом, после обучения каждой модели, строю график изменения функции потерь и показателя качества модели по эпохам. Казалось бы мне остаётся посмотреть на сгенерированные при переборе графики и выбрать наилучшую модель, которая лучше обучилась за минимальное количество эпох. Но! Когда я выбираю лучшую модель из перебираемых и вызываю туже функцию только уже с заданными параметрами выбранной модели, получаю другой (не тот, что видел на графике при переборе) результат! И понятия не имею почему.

При переборе использую метод model.summary(), который выводит характеристики модели: имяСлоя_номер ---- размер входа/выхода и подобное...
Так вот, когда в цикле функция создания модели вызывается первый раз, то model.summary() выводит имена слоёв с номер, начиная с 1 и, допустим, последним с номером 5. То при втором вызове этой функции в цикле с другими параметрами, model.summary() выводит название первого слоя с номером, начиная с 6. Будто они как-то связаны, хотя при выходе из функции все созданные объекты должны теряться (удаляться).

Общая картина: последовательный перебор модели, начиная с некоторой модели x1 и заканчивая моделью xN, и отдельно создать и обучить сеть с параметрами как у xN, то результаты разные, а именно у модели, к которой мы пришли перебором, показатели на графике лучше. Кажется, что Keras при построении следующей модели использует предыдущее обучение, то есть она как бы предобучена, и с каждым разом показывает результат всё лучше. Почему так происходит?

def plot_res(result, n_epoch, n_hidden, c_hidden, batch_size):
    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(8, 4))

    ax[0].set_ylim(ymin=-0.05, ymax=1.05)
    ax[0].plot(range(1, n_epoch + 1), result.history['val_loss'],
               linestyle='--', color='g', label='validation')
    ax[0].plot(range(1, n_epoch + 1), result.history['loss'], color='y', label='train')
    ax[0].set_xlabel('Эпохи')
    ax[0].set_ylabel('Функция потерь')
    ax[0].legend(loc='best')
    ax[0].set_title('Изменение функции потерь')

    ax[1].set_ylim(ymin=-0.05, ymax=1.05)
    ax[1].plot(range(1, n_epoch + 1), result.history['val_acc'],
               linestyle='--', color='g', label='validation')
    ax[1].plot(range(1, n_epoch + 1), result.history['acc'], color='y', label='train')
    ax[1].set_xlabel('Эпохи')
    ax[1].set_ylabel('Показатель качества')
    ax[1].legend(loc='best')
    ax[1].set_title('Изменение показателя качества')
    # fig.show()
    fig.savefig('NN_eph{}_c_hd{}_n_hd{}_btch{}.png'.format(n_epoch, c_hidden, n_hidden, batch_size), dpi=300)


# Для тестирования
def neural_network(n_epoch=10,
                   batch_size=64,
                   verbose=0,
                   n_classes=2,
                   optimizer=Adam(),
                   n_hidden=38,
                   validation_split=0.2,
                   reshaped=11,
                   c_hidden=2):

    x_train, x_test, y_train, y_test = prepare_data_base(n_classes, "DATA_BASE.csv")

    model = Sequential()
    model.add(Dense(n_hidden, input_shape=(reshaped,)))
    model.add(Activation('relu'))

    for _ in range(c_hidden):
        model.add(Dense(n_hidden))
        model.add(Activation('relu'))

    model.add(Dense(n_classes))
    model.add(Activation('softmax'))
    model.summary()

    model.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["accuracy"])

    result = model.fit(x_train, y_train, batch_size=batch_size, epochs=n_epoch,
                       verbose=verbose, validation_split=validation_split)

    score = model.evaluate(x_test, y_test, verbose=verbose)
    print("Test score: ", score[0])
    print("Test accuracy: ", score[1])

    plot_res(result, n_epoch, n_hidden, c_hidden, batch_size)

    model.save("model_eph{}_c_hd{}_n_hd{}_btch{}.json".format(n_epoch, c_hidden, n_hidden, batch_size))

Вопрос задан более трёх лет назад
191 просмотр

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Sanders @Sanderses Автор вопроса

Пусть даже они просто так нумеруются, но не понятно почему разные показатели у одной и той же модели сети.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Sanders, "вызываю ту же функцию" - какую? Еще раз обучение? И чем именно графики отличаются?

Написано более трёх лет назад
Sanders @Sanderses Автор вопроса

neural_network - эту функцию. В ней заново создаётся модель model = Sequential() и обучается, после создаётся график.
Тут даже не дело в том, чем они отличаются, а дело в том, что они вообще отличаются, хотя должны быть одинаковыми.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Sanders, веса же инициализируются случайными числами (glorot_uniform по умолчанию). Поэтому количественно ход обучения может немного отличаться, качественно - нет.

Написано более трёх лет назад
Sanders @Sanderses Автор вопроса

ivodopyanov, Спасибо. Разобрался. )

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 90 просмотров
0

ответов
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 77 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 75 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 65 просмотров
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 96 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 79 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 156 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1331 просмотр
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 243 просмотра
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 276 просмотров
3

ответа
Показать ещё Загружается…

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Менеджер цифровых проектов

Российский Красный Крест • Москва

от 100 000 ₽

Answer 1 · 2018-05-16 16:21:11

Возможно, глобальный инкремент в номерах слоев может быть связан с тем, что сессия Tensorflow хранится в Keras глобально в tensorflow_backend.py и названия переменных по умолчанию должны быть уникальны в рамках сессий. Это если бэкенд - TF.

Почему при последовательном создании моделей в Keras они каким-то образом между собой зависят, хотя, наверное, не должны?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт