Удалять ли отрицательную корреляцию, если строишь линейную регрессию?
Делаю анализ данных, построила тепловую карту. Удалила сильно коррелированные значения для того что бы избавиться от коллиниарности. Но вот вопрос, на карте присутствуют отрицательные значения избавляться от них или нет?
Конечно же нет, негативная корреляция нормальный результат. Когда одна переменная увеличивается другая уменьшается это негативная корреляция. В то время как позитивная корреляция это когда одна переменная увеличивается увеличивается и другая. Вот и вся разница между позитивной и негативной корреляцией.
Но в чем может быть проблема, если мои предсказания отрицательны и очень маленькие. Например в тренировочном наборе данных цена на дома 140 000. Модель обучена на 0.80.... В предсказании цена дома - 600?
Cipo, Ну это уже совершенно другой вопрос никак не связанный с вашим первым вопросом, матрица корреляции (которую вы визуализировали с помощью heat map тепловая карта) она показывает как переменные коррелируют друг с другом. И все что вы можете интерпретировать это смотреть как коррелируется ваш feature сет переменных между собой.
Вы строите сложную линейную регрессию.
цена дома = a * X1, + b * X2 + .. c*X_n + В
где X1 ваша первая входная переменная,
X2 ваша вторая и т.д
B - интерсепт.
коэфициенты a, b, .. c, B - это что выучит алгоритм. (Коэфициенты будут найдены такие которые минимизирую сумму квадратов ошибок).
Так вот негативная корреляция не имеет никакого отношения к отрицательному значению стоимости дома.
Отрицательная стоимость дома значит что в выше приведенную формулу подставлены и значения переменных полученных на вход и в результате получен отрицательный ответ. (Естественно такого быть не должно надо видеть код и тогда разбираться в чем причина.)
Cipo, Пожалуйста, кстати обратите внимание (где искать ошибку) вы сказали модель натренирована на 0.8 во первых а что это что за метрика, в линейной регрессии может много метрик но используется три основные
R_squared, MAE (mean absolute squared), MSE/RMSE (Mean square error/root mean square error), не буду забивать вам голову разъясняя про каждую (почитаете), ну так вот где дома измеряются в сотнях тысячах не одна из этих метрик не может дать результат 0.8, при чем даже если тренировать и тестить на одних и тех же данных потому что регрессия то линейная она не сможет на столько оверфитить. Это значение должно быть значительно больше.