ChicoId
@ChicoId
IT Specialist

Как обработать null значения категориальных переменных в регрессии (машинное обучение)?

Я пытаюсь провести регрессионный анализ. Имеется множество переменных (multiple feature regression). Некоторым переменным для некоторого элемента данных не присвоено значение и они установлены в null. Для порядковых переменных я могу использовать замещение Null-ов средним значением данных. А как быть в случае если переменная категориальная. Например цвет или район города. Для наглядности картинка:
c98c138f35c14ba9bd449bfbb083203b.jpg

В этом примере данных есть несколько категориальных переменных: цвет, материал, безопасность, тип, район. Как замещать null-ы в таких данных. Или мне взять этот самый Null как отдельный вариант данных (класс) и все? Не слишком ли примитивно это будет?
  • Вопрос задан
  • 164 просмотра
Решения вопроса 1
@protven
Явной корреляции, по которой можно восстановить недостающие данные нет ?
Если нет, то я бы попробовал проверить распределение имеющихся значений на нормальность. И если это условие выполняется, то заполнил бы NULL случайными значениями с нормальным распределением. Ну и стандартно прогнал бы получившуюся модель на тестовой выборке.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы