Зачем нужна нормализация количественных признаков?

Question

un1t @un1t

Зачем нужна нормализация количественных признаков?

Прохожу туториал вот тут mlbootcamp.ru/article/tutorial
Вначале идет подготовка данных к виду, когда их можно скормить алгоритму. Все было понятно вот до этого момента:

Нормализация количественных признаков

Многие алгоритмы машинного обучения чувствительны к масштабированию данных. К таким алгоритмам, например, относится метод ближайших соседей, машина опорных векторов и др.

В этом случае количественные признаки полезно нормализовать. Это можно делать разными способами. Например, каждый количественный признак приведем к нулевому среднему и единичному среднеквадратичному отклонению:

data_numerical = data[numerical_columns]
data_numerical = (data_numerical - data_numerical.mean()) / data_numerical.std()
data_numerical.describe()

Хотелось бы понять в чем физический смысл этой нормализации.
Можете популярно объяснить или какие-то ссылки подкинуть?

Вопрос задан более трёх лет назад
18203 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

2 комментария

un1t @un1t Автор вопроса

Спасибо! Теперь понятно. А саму формулу можешь прокомментировать? вычесть среднее и разделить на стандратное отклонение. Что мне превое в голову приходит, чтобы привести к одному масштабу это просто умножить на коэффициент в даном случае вторую переменную умножим на 100 и тогда масштаб будет один.

Написано более трёх лет назад
Andrey Druzhaev @borodaturan

un1t: эту процедуру можно делать по разному. Самый простой вариант - вычесть среднее и разделить на разницу между максимальным значением и минимальным. Но он плох тем, что в случае случайного выброса (например, для первой переменной появилась точка со значением 1000) такого рода обработка будет не удачной.
Второй вариант - отнять среднее и поделить на стандартное отклонение. Этот способ более устойчив к выбросам. Но все равно среднее значение и стандартное отклонение чувствительны к выбросам.
Третий вариант (робастная нормализация) - отнять медиану и поделить на разность между третьим и первым квартилями. Такой вариант практически сводит на нет влияние выбросов.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 18 минут назад
- 12 просмотров
0

ответов
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- вчера
- 74 просмотра
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- вчера
- 43 просмотра
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- вчера
- 171 просмотр
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 130 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 131 просмотр
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 199 просмотров
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- 15 авг.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 50 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Answer 1 · 2016-02-06 19:42:41

Смысл очень простой. Попытаюсь объяснить на примере.
Метрические алгоритмы делают свои выводы на основе оценки расстояния между точками или между точкой и прямой. Пусть у нас есть две переменные, одна изменяется от 0 до 100, вторая - от 0 до 1.
Возьмем две точки - (0, 0) и (100, 1). Расстояние между ними по евклидовой метрике:
((100 - 0)**2 + (1 - 0)**2) ** 0.5.
Видно, что оценка расстояния формируется в основном лишь за счет 1 переменной. Отсюда следует, что значения 2 переменной будут слабо влиять на конечный результат работы алгоритма. И это будет связанно только с тем, что данные не нормализованы. А не с тем, что вторая переменная не влияет на результат по сути задачи.

Зачем нужна нормализация количественных признаков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт