Мне использовать те же параметры нормализации, что были на обучающем или нормализовать данные с нуля?

Question

Jut_Rut @Jut_Rut

Мне использовать те же параметры нормализации, что были на обучающем или нормализовать данные с нуля?

Для нормализации использую это:

mean = data_for_l.mean(axis=0)
std = data_for_l.std(axis=0)

data_for_l -= mean
data_for_l /= std

Здесь я вычитаю среднее и делю на отклонение, прочитал об этом методе в книге. Не знаю, сохранять мне mean и std и использовать их для нормализации всегда или их лучше считать заново для данных, которые я хочу предсказать. Нейронная сеть простая полносвязная в 1 слой.

Вопрос задан более двух лет назад
76 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

7 комментариев

Jut_Rut @Jut_Rut Автор вопроса

Большое спасибо, я использую Keras, не знаю есть ли там что-то похожее, просто сохраню и буду нормализовать так же, как на обучающем наборе.

Написано более двух лет назад
Максим Припадчев @Maksim_64

Jut_Rut, На самом деле ничего тебе не мешает для препроцессинга использовать scikit-learn. Но и никто не запрещает просто сделать функцию, normalize. Где параметры будут из тренировочного сета. Как удобно. Главное не считать ничего на тестовом/ валидационном наборе. Это называется. data leakage.

Написано более двух лет назад
Jut_Rut @Jut_Rut Автор вопроса

Хорошо. Я ещё о кое-чём хотел спросить. Когда я нашёл оптимальные значения, при которых нейросеть перестаёт прогрессировать и наступает переобучение, я взял те данные, которые использовались для проверки её точности и запустил новое обучение уже с этими данными (не проверял точность, только обучил). Я правильно поступил или нет?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Jut_Rut, Нет не правильно. У тебя есть тренировочный набор и тестовый набор. Тренировка это получение "знаний твоей модели".

Есть конечно кросс валидация. Но у ней не много другие цели подбор гипер параметров и не только.
У ней есть параметр kfold (количество разбиений), например 5. Разбивают данные на 5 частей. Сначала 4/5 используют как тренировочный сет 1/5 как валидационный набор, потом другие 4/5 как тренировочный набор и другую 1/5 как тестовый и т.д. Вот картинка https://scikit-learn.org/stable/modules/cross_vali..., это без разницы какая библиотека, с нейронными сетями так же делают.

Но в прод идет модель которую ты тренировал на тренировочном датасете а тестировал на тестовом. И никогда ты не тренируешь на данных из тестового сета. Модель ничего о нем знать не должна.

Написано более двух лет назад
Jut_Rut @Jut_Rut Автор вопроса

Я понимаю, я о том, что я не тестировал модель в общем. у меня, условно, на самом деле данных куда больше, была 100 записей. 70 я отдал на обучение, 15 на валидацию и 15 на тест в конце. После того, как я достиг переобучения (понял по графику валидации), я запустил обучение заново, но теперь только с 85 обучающими и 15 тестовыми с теми же параметрами, валидации нет вообще. Почему так делать - это плохая идея?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Jut_Rut, Так делать можно, если у тебя остается тестовый сет, который ты не трогал, то все ок.

Написано более двух лет назад
Jut_Rut @Jut_Rut Автор вопроса

Максим Припадчев, отлично, спасибо большое!

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 223 просмотра
0

ответов
Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 75 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 226 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 628 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 542 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 304 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 73 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2024-01-05 10:20:48

Хороший вопрос. Есть правило никогда не использовать метод fit на тестовом сете. Иными словами будьто нормализация, скалинг, стандартизация или другие трансформации, ты никогда не находишь никакие параметры в тестовом наборе - это грубая ошибка. А всегда используешь только тренировочный набор. По этому все свои mean, std и прочее ты берешь только из тренировочного набора.

В scikit-learn есть трансформаторы, к примеру StandardScaler так вот у него есть методы fit, transform и fit_transform. Так вот для тестового дата сета ты используешь только transform и никогда fit или fit_transform. Что означает применить трансформацию к тестовому сету с параметрами посчитанными на тренировочном сете.

С нейронными сетями абсолютно тоже самое без каких либо исключений.

Мне использовать те же параметры нормализации, что были на обучающем или нормализовать данные с нуля?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт