@Kusmaus

Что делать, если при учете константы в регрессионном анализе r-квадрат ужасен, но нет оснований не учитывать её?

Я использую регрессионный анализ в Excel для набора данных. Если я учитываю константу, то получаю ужасные значения r-квадрата, но показатели t-статистики и p-value указывают на то, что она не равна нулю.

66328e8100a8b085526362.png

Если я все же укажу, что константа равна нулю, то получу хорошие значения r-квадрата, в то время как показатели RSS, ESS и TSS растут. X1 и X2 становятся более значимыми, но меня беспокоит, что стандартная также ошибка выросла.

66328e8c8fb8f704392795.png

Нужно ли учитывать константу, потому что в этом случае r-квадрат больше, и как объяснить рост RSS, ESS и TSS?
Примечание: анализ выполняется для данных, выраженных в натуральном логарифме.
  • Вопрос задан
  • 181 просмотр
Пригласить эксперта
Ответы на вопрос 1
Maksim_64
@Maksim_64
Data Analyst
1. Теоретически это возможно иметь такую разницу в r-squared. Но довольно редкий кейс, я бы перепроверил данные.

2. Нужно/ Не нужно это вопрос моделирования. Как ты собираешься интерпретировать модель, если ты используешь линейную регрессию (модели с высокой степенью интерпретации), то ты всегда отталкиваешься от бизнес значений параметров и ошибок. Константу оставляют например когда при нулях (или значениях очень близких к нулю), модель не должна показывать ноль.

3. Посмотри на другие метрики например среднюю абсолютную ошибку, медианную абсолютную ошибку. Все они имеют хорошую бизнес интерпретацию с которой легко работать. Сам по себе r_squared это количество вариативности (дисперсии) объяснено моделью. 0.19 (19 процентов) вариативности объяснено моделью. Что очень мало и я назвал бы такую модель негодной. В то время как 0.99 (99 Процентов) очень много это учебные показатели, но это еще не все это не означает все супер. Посмотри на вышеупомянутые метрики они измеряются в единицах твоего таргета. Как они себя ведут.

4. RSS, ESS, TSS - далековато от бизнеса. Это значения которые нужны для F статистики. А она у тебя говорит сама за себя 4314 и 5. Первая модель (где 5) совершенно не пригодна. Вторую перепроверяй, и мысли категориями интерпретации. Это сама суть регрессивного анализа.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы