@ooopsdamna
Переквалифицируюсь в аналитика данных

Нулевая гипотеза. Как исправить формулировку?

Проблема с пониманием и поиском ошибке - привожу ниже вместе с перепиской:

И так, у нас два тарифа, нужно понять, различается или нет средняя выручка по двум тарифам?
Выдвинем гипотезы:

H₀ - средняя выручка по двум тарифам различается

H1 - средняя выручка по двум тарифам не различается

alpha = .05 - критический уровень статистической значимости. Если p-value окажется меньше него - отвергнем гипотезу.

Примечание препода: Метод st.ttest_ind проверяет средние двух совокупностей на равенство. Соотвтетсвенно, нулевая гипотеза всегда предполагает равенство средних исследуемых генеральных совокупностей. Далее, полученное p-value показывает вероятность, с которой мы ошибемся, приняв альтернативную гипотезу. Если она достаточно мала, можем отвергнуть нулевую гипотезу и принять альтернативную (средние не равны), если достаточно велика - не можем отвергнуть нулевую, приходится её принять (средние равны).

alpha = .05

results = st.ttest_ind(
megaline_all[megaline_all['tariff'] == 'ultra']['all_month_money'],
megaline_all[megaline_all['tariff'] == 'smart']['all_month_money'],
equal_var = False)
print('p-значение:', results.pvalue)

if (results.pvalue < alpha):
print("Отвергаем нулевую гипотезу")
else:
print("Не получилось отвергнуть нулевую гипотезу")
p-значение: 0.0
Отвергаем нулевую гипотезу
Статистически значимыми различия между выручкой тарифа Ультра и Тарифа смарт назвать нельзя. При том что средняя выручка по месяцам между двумя тарифами явно разная: смарт = 692, а ултра = 1950. То есть среднаяя выручка по двум тарифам не однинакова, но такое различие можно получить случайно, что нам продемонстрировало p-значение: 0.0

ПРЕТЕНЗИЯ ПРЕПОДА
Вот, из-за неверной формулировки гипотез и выводы получили неверные. Давай поработаем над этим.

UPD: Как я писал выше, нулевая гипотеза должна предполагать равенство исследуемых средних. Мы же предполагаем обратное.
  • Вопрос задан
  • 1055 просмотров
Пригласить эксперта
Ответы на вопрос 3
@dmshar
А что собственно, неясно? Нулевая гипотеза для средних всегда принимается как гипотеза РАВЕНСТВА средних, которую надо опровергнуть (отклонить). Или "не отклонить". Альтернативная гипотеза действительно, как правило относится к той теории, которую собираются исследовать - в вашем случае, что тарифы влияют на выручку. Именно так работают все критерии и именно это (вероятность того, что мы ошибемся, приняв альтернативную гипотезу - в вашем случае, мы скажем что тариф влияет на выручку, хотя на самом деле это не так) и показывает значение p-value. Простым языком, "большое" его значение, говорит, что при отклонении нулевой гипотезы мы скорее всего ошибемся, а малое - что мы может быть и ошибемся, но вероятность такой ошибки крайне мала.
У вас же все наоборот. Вот и результат получаете такой, который невозможно нормально проинтерпретировать.
P.S. И да, увеличьте точность представления десятичных чисел, иначе вы вообще ничего никогда не увидите.
Ответ написан
Комментировать
А правильно ли вы считает выручку? Как то подозрительно значение pvalue = 0.0
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
каша и неверно составленная задача

всегда ищи физический смысл, помимо жонглирования цифрами и коэффициентами
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы