Как обработать null значения переменных в регрессии (машинное обучение)?

Question

Chichi @ChicoId

IT Specialist

Как обработать null значения переменных в регрессии (машинное обучение)?

Я пытаюсь провести регрессионный анализ. Имеется множество переменных (multiple feature regression). Некоторым переменным для некоторого элемента данных не присвоено значение и они установлены в null. Для наглядности картинка:

Как можно увидеть, некоторые элементы не имеют значений для определенных категорий (features). На данный момент, я установил их в Null. Но как следует обработать такие значения при выполнении регрессии данных? Я бы не хотел чтобы эти Null значения плохо повлияли на регрессионную модель. К сожалению, удалить элементы, которые в какой-либо из категорий содержать Null, я не могу. Для построения регрессии я использую Python.

Вопрос задан более трёх лет назад
638 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

2 комментария

Chichi @ChicoId Автор вопроса

Для порядковых данных (например год) я могу использовать среднее значение для заполнения null-ов. А как быть в случае если переменная категоризированная (например цвет или район города к примеру)?

Написано более трёх лет назад
SeptiM @SeptiM

У вас же две стадии обработки данных. Сначала все данные, включая категории, превращаются в числа. Потом вы думаете, что делать с пропущенными данными.

Кстати, по поводу среднего стоит помнить такую проблему. Вот у вас есть, например, граждане, которые родились в 87, 90, 93 году примерно в равных пропорциях. Пусть треть граждан не указала свой год рождения. Если пользоваться средним, мы вбросим треть граждан, которые родились в 90-году. Это, скажем, создает некоторую системную ошибку. Это не значит, что такой подход надо немедленно выкинуть, но просто стоит знать, если итоговые результаты не устроят.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как работать с Selenium через приватный socks proxy?
- 1 подписчик
- 27 июл.
- 92 просмотра
2

ответа
Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 202 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 113 просмотров
1

ответ
MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 19 июл.
- 480 просмотров
5

ответов
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 125 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 419 просмотров
0

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 168 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 590 просмотров
2

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 249 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 727 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-12-03 23:13:54

вы как исследователь данных сами должны решить что делать с пропусками,
обычно есть несколько типовых вариантов:
1. выкинуть эти данные (не подходит если очень мало данных, и каждые на вес золота)
2. заполнить какими-нибудь значениями типовыми, например нулями (если речь о количестве например) , или средними значениями если например это год (писать например 2005)
3. восстановить эти данные (для этого уже нужны определённые подходы и алгоритмы. например, используя соседей, к-mean, коллаборативной фильтрацией.)
у вас вобще тут совсем простая задача -> предположительно цена это результат комбинации набора параметров.
отсюда вы можете оценить влияние каждого параметра на цену. особенно имея схожие значения.
начинайте сначала с простых вещей -> там где CONDITION NEW -> очевидно что YEAR = ~ 2015
потом можно составить систему уравнений -> типа
YEAR*x+Storey*y+Area*z+Condition*n+Type*m+District*k=PRICE
можно легко составить систему из 5 уровнений, и найти коэффициэнты любым удобным для вас способом например Гауссом.
(PS если данных мало то district можно пренебречь)

Answer 2 · 2015-12-04 00:04:52

В первом приближении NULL's можно заменить средним значением или медианой. Если хочется лучше, можно попробовать угадать значения через дополнительную регрессию. Еще более тонкий метод через создание нескольких версий оригинальных данных (см. multiple imputation).

Как обработать null значения переменных в регрессии (машинное обучение)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт