Что учитывать при линейной регрессии?

Question

Cipo @Cipo

Машинное обучение

Что учитывать при линейной регрессии?

Такой вопрос. При построении прогноза через линейную регрессию по правилам нам нужно выбросить сильно коррелируемый столбец. Вопрос: почему? А если корреляция столбцов равна 0, удалять столбец данных или нет?

Вопрос задан более двух лет назад
71 просмотр

4 комментария

Подписаться 1 Средний 4 комментария

mayton2019 @mayton2019

Почему один столбец?

Написано более двух лет назад
Cipo @Cipo Автор вопроса

mayton2019, я имею ввиду вот, что:
Когда мы прогнозируем цену дома мы смотрим на такие параметры как: площадь, район, количество комнат. Например после того как мы построили тепловую карту мы видим сильную корреляцию между ценой и площадью дома. Нам надо удалить этот столбец, ибо расчеты наши будут ошибочны: почему ошибочны, как это понять? И вот еще вопрос например корреляция количества комнат и цены равны 0, почему тогда мы не удаляем столбец с количеством комнат?

Написано более двух лет назад
kamenyuga @kamenyuga

Из каждой группы сильно скоррелированных данных (столбцов) удаляем все кроме какого-то одного. Иначе получим, что по факту одинаковые данные продублированы (увеличен их вес в несколько раз - по количеству скорелированных столбцов). Корреляция 0% - это идеал. Корреляция выше 50% - это плохо. Между этими значениями - нормально. Нередко из двух скореллированных столбцов делают один двумерный - бинят сразу пару совместно, если пара добавляет полезную информацию.

Написано более двух лет назад
mayton2019 @mayton2019

Cipo, я себе это так вижу. Есть цена дома и цена с учотом налогов. Это - одно и то-же. Корреляция будет равна примерно единичке. Зачем нам брать во внимание эти две абсолютно связные характеристики. Никакой новой информации в модель эта цена с налогами не превносит. И ее можно выкинуть.

Насчет количества комнат - я-бы оставил.

Написано более двух лет назад

Решения вопроса 1

3 комментария

Cipo @Cipo Автор вопроса

Хорошо, спасибо, поняла

Написано более двух лет назад
dmshar @dmshar

Cipo, Вы хоть уже и не новичек на этом сайте, но просмотрев ваши вопросы и - главное - ответы которые вам давали, обнаружил, что вы очевидно не прочитали правила форума и то, как тут принято выражать благодарность за ответ. Рекомендую этот пробел восполнить.

Написано более двух лет назад
Cipo @Cipo Автор вопроса

dmshar, я редко тут заседаю, но в последнее время вопросов пишу достаточно. Я полагаю благодарность - это отметить ваш ответ как решение моей проблемы?

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 246 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 272 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 92 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 744 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 171 просмотр
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 764 просмотра
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

mayton2019, я имею ввиду вот, что:
Когда мы прогнозируем цену дома мы смотрим на такие параметры как: площадь, район, количество комнат. Например после того как мы построили тепловую карту мы видим сильную корреляцию между ценой и площадью дома. Нам надо удалить этот столбец, ибо расчеты наши будут ошибочны: почему ошибочны, как это понять? И вот еще вопрос например корреляция количества комнат и цены равны 0, почему тогда мы не удаляем столбец с количеством комнат?
Из каждой группы сильно скоррелированных данных (столбцов) удаляем все кроме какого-то одного. Иначе получим, что по факту одинаковые данные продублированы (увеличен их вес в несколько раз - по количеству скорелированных столбцов). Корреляция 0% - это идеал. Корреляция выше 50% - это плохо. Между этими значениями - нормально. Нередко из двух скореллированных столбцов делают один двумерный - бинят сразу пару совместно, если пара добавляет полезную информацию.
Cipo, я себе это так вижу. Есть цена дома и цена с учотом налогов. Это - одно и то-же. Корреляция будет равна примерно единичке. Зачем нам брать во внимание эти две абсолютно связные характеристики. Никакой новой информации в модель эта цена с налогами не превносит. И ее можно выкинуть.

Насчет количества комнат - я-бы оставил.

Answer 1 · 2022-11-17 17:36:14

О чем вообще идет речь? Если об одномерной регрессии, то выбор наиболее сильно коррелированной пары позволяет потом значение одной переменной (выбранной в качестве целевой) наиболее точно предсказывать по значениям второй (выбранной в качестве независимой). Чем выше корреляция - том точнее будет результат предсказания. Соответственно если корреляция между независимой и зависимой переменной равна или близка нулю, то смысла строить регрессионную модель вообще нет от слова совсем.
Если речь идет о многомерной регрессии, то потом к этой паре можно добавлять еще переменных, примерно по той-же логике - чем больше корреляция между переменной и целевой переменной - тем выше точность.
Но есть исключение. Если у вас в качестве кандидатов на независимые переменные рассматриваются несколько переменных которые сильно коррелированы между собой, тогда смысла их всех включать в результирующее уравнение регрессии нет, так как точность прибавиться весьма слабо а вот сложность самого уравнения - вырастет существенно. Поэтому из СИЛЬНОкоррелировнных независимых переменных выбирают одну и с ней работают дальше.
Но и тут есть свои нюансы. Например, если зависимая переменная зависит от произведения (или отношения) нескольких независимых. Но это уже совсем другая история.

Что учитывать при линейной регрессии?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт