Как интерпретировать результат теста Шапиро-Уилка и Колмагорова — Смирнова?

Question

Chubaka @BladehelpRunner

Гений мысли

Как интерпретировать результат теста Шапиро-Уилка и Колмагорова — Смирнова?

Я решил поиграться с проверкой распределения на нормальность. Решил проверить распределение возраста среди покупателей (всего 2000 уникальных потребителей) на нормальность
Построил qqplot, провел тест Шапиро - Уилка, по результатам которого должен отклонить нулевую гипотезу о нормальности. Но так же решил провести тест Колмагорова- Смирнова, который показывает значение статистики = 1 и p-value 0. Что значит значение статистики = 1? Вернее как можно интерпретировать эти значения? И всё ли я делаю правильно?
Скрин прикладываю выше

Вопрос задан более двух лет назад
3219 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Аналитик данных

7 месяцев

Далее
Skillbox

Профессия Data Analyst

12 месяцев

Далее
Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 43 просмотра
0

ответов
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 239 просмотров
2

ответа
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 2 подписчика
- 20 авг.
- 200 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 181 просмотр
1

ответ
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 104 просмотра
0

ответов
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн.
- 183 просмотра
2

ответа
Аналитика

Простой
Какие сейчас используются качественные программы для pairwise?
- 2 подписчика
- 04 мая
- 66 просмотров
2

ответа
Аналитика

+1 ещё

Простой
Если ли более изящный способ вычисления суммы максимальных значений за день в ретроспективе 1 месяц?
- 5 подписчиков
- 21 мар.
- 2257 просмотров
2

ответа
Аналитика

+1 ещё

Средний
Как построить объясняющую модель временного ряда?
- 2 подписчика
- 08 февр.
- 182 просмотра
0

ответов
Теория вероятностей

+1 ещё

Средний
Как посчитать вероятность по формуле Байеса в экспертной системе?
- нет подписчиков
- 25 янв.
- 97 просмотров
1

ответ
Показать ещё Загружается…

Продуктовый аналитик

Outlines Tech • Москва

До 280 000 ₽

Руководитель отдела поддержки программного обеспечения

Эконика • Москва

от 170 000 до 170 000 ₽

Аналитик

Gen AI Solutions

от 150 000 до 250 000 ₽

Answer 1 · 2023-04-14 18:09:27

Ну все ли вы делаете правильно это совершенно неизвестно, (Это большой вопрос как сделана выборка, что за данные и т.д. вообщем соблюдены ли все условия) и так сходу не ответишь Это надо сидеть и разбираться (иметь ваши данные и время (сразу скажу делать я этого не буду)). А вот на остальное ответить вполне себе можно.

1. График о чем говорит? Нормальное распределение подразумевает, крайне маленькие вероятности у "хвостов" распределения, то есть если вы отклонились более 2 стандартных отклонений то там 5 процентов всего по 2.5 с каждого края, на вашем же графике далекие от среднего значения НЕ являются маловероятными событиями. В статистике это называется fat tails. То есть это не НОРМАЛЬНОЕ распределение не будет такого что 95 процентов лежат в пределах двух стандартных отклонений, это значение будет меньше (Экстремальные величины не являются маловероятными).

2. По поводу теста тут все просто. Что такое p-value? Это вероятность тестовой статистики при условии НУЛЕВАЯ Гипотеза ИСТИННА. Поговорим о логике эксперемента. Допустим мы говорим средний рост прохожего (мужского) пола 175см. Это ПАРАМЕТР популяции который мы хотим затестить посредством СЛУЧАЙНОЙ выборки. Мы выходим на улицу берем 500 (например дизайн эксперемента я опускаю) мужчин измеряем их рост и берем среднее значение это ТЕСТОВАЯ статистика, далее мы нормализуем (трансформируем наши ТЕСТОВУЮ статистику после чего она измерятся не в см а в стандартных отклонениях) ну и находим вероятность ТЕСТОВОЙ статистике из такого распределения где ПАРАМЕТР истинен. Если это вероятность ниже установленного заранее порога, мы отвергаем нулевую гипотезу. Потому что мы говорим это очень маловероятно видеть такую ТЕСТОВУЮ статистику при условии нулевой гипотезы истинной. Это общая направление ИДЕЯ. Частные имплементации могут отличаться в зависимости сколько данных у нас есть что мы знаем о распределении популяции и .т.д. Это была общая логика.

У теста Колмагорова-Смирнова есть своя формула для ТЕСТОВОЙ Статистики которая показывает своего рода "дистанцию" между распределением выборки и в данном случае нормальным распределением (Упрощенно читайте подробнее) и вычисляет ее вероятность. В вашем случае он вам показал что вероятность равна нулю. (То есть уверенно отвергаем нулевую гипотезу).

Это что можно понять из предоставленной вами информации, повторюсь ответить правильно ли вы все сделали возможности нет.

Как интерпретировать результат теста Шапиро-Уилка и Колмагорова — Смирнова?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт