@Cipo

Что учитывать при линейной регрессии?

Такой вопрос. При построении прогноза через линейную регрессию по правилам нам нужно выбросить сильно коррелируемый столбец. Вопрос: почему? А если корреляция столбцов равна 0, удалять столбец данных или нет?
  • Вопрос задан
  • 64 просмотра
Решения вопроса 1
@dmshar
О чем вообще идет речь? Если об одномерной регрессии, то выбор наиболее сильно коррелированной пары позволяет потом значение одной переменной (выбранной в качестве целевой) наиболее точно предсказывать по значениям второй (выбранной в качестве независимой). Чем выше корреляция - том точнее будет результат предсказания. Соответственно если корреляция между независимой и зависимой переменной равна или близка нулю, то смысла строить регрессионную модель вообще нет от слова совсем.
Если речь идет о многомерной регрессии, то потом к этой паре можно добавлять еще переменных, примерно по той-же логике - чем больше корреляция между переменной и целевой переменной - тем выше точность.
Но есть исключение. Если у вас в качестве кандидатов на независимые переменные рассматриваются несколько переменных которые сильно коррелированы между собой, тогда смысла их всех включать в результирующее уравнение регрессии нет, так как точность прибавиться весьма слабо а вот сложность самого уравнения - вырастет существенно. Поэтому из СИЛЬНОкоррелировнных независимых переменных выбирают одну и с ней работают дальше.
Но и тут есть свои нюансы. Например, если зависимая переменная зависит от произведения (или отношения) нескольких независимых. Но это уже совсем другая история.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы