Задать вопрос
leshqow
@leshqow
-l-

Регрессия к среднему. Что за формула?

Встретил на просторах интернета такой вот абзац:

The R2 value here is 0.609 which is ok but not great. The % regression to the mean is calculated as follows

% regression to the mean = 100% x (1 – R) = 1 – (0.608)1/2 = 100 x (1 – 0.779) = 22.1%


Только что то на просторах рунета не могу найти внятного объяснения что это на самом деле.

1. Прав ли я буду если назову это регрессией к среднему ?
2. Как автор получил 0.779 ?
3. Как расчитан коэффицент R2 и почему в формуле используется просто R, а не R2
Оригинал статьи
  • Вопрос задан
  • 243 просмотра
Подписаться 1 Средний 1 комментарий
Решения вопроса 1
@Mercury13
Программист на «си с крестами» и не только
R² — это так называемый коэффициент детерминации. Как он работает?
Изначальная дисперсия переменной y будет D1.
Наладили модель — дисперсия модели D2, которая, надо полагать, меньше D1 (особенно если вся выборка обучающая, без экзаменационной; здравствуй, переобучение!).
Тогда R² = 1 − D2/D1 = (D1 − D2) / D1.

Дисперсия, как известно, измеряется в квадратных попугаях. И, кроме того, для независимых величин D(x+y) = Dx+Dy. Таким образом, √(D1 − D2) ~ √R² — это тот разброс, который мы объяснили моделью.

Но он, по-видимому, натягивает сову на глобус. В его модели объяснённый разброс — 0,780 (ещё и округлять не умеет), необъяснённый — √D2 ~ √(1 − R²) = 0,626, и в зависимости от того, что хочешь доказать, можно манипулировать статистикой в ту или иную сторону. Вот так я могу сказать, что с такими разбросами всего на 0,780 / (0,780+0,626) = 55% умение, и на 45% — удача. Так что нет, коэффициент детерминации, и точка. Повторяю, для независимых величин один разброс частично компенсируется другим, и D(x+y) = Dx+Dy. В квадратных попугаях.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы