Ответы пользователя по тегу Математическая статистика
  • Как определить большинство и меньшинство по числовой характеристике?

    Maksim_64
    @Maksim_64
    Data Analyst
    Как определить большинство и меньшинство по числовой характеристике?

    Если требуется точный ответ это не вопрос математической статистики. Математическая статистика она оценивает (дает приблизительную оценку с какой то степенью уверенности), но ничего не находит.

    Мы имеем данные случайную выборку (если она случайная, это требование, а не пожелание) и распределение откуда она была сделана, например нормальное распределение (нет никаких гарантий что ваше распределение нормально, возможно любое другое, я беру для примера.) 64db45fed6d86239091289.png

    У каждого распределения есть параметры, например у нормального это среднее арифметическое значение (μ) и Среднеквадратическое отклонение, часто называют стандартным отклонением (σ).
    На основании выборки с определенной степенью уверенности "оценивают" параметры распределения из которого была сделана выборка и затем обладая этими данными можно производить любые расчеты. Например, на графике выше по серединке это среднее отклонение людей от точки, стандартное отклонение это дистанция на сколько отклоняется. Например +- одно стандартное отклонение от среднего это 68% человек.

    Так вот это не в коем случае не решение вашего вопроса, это фреймворк о том как мыслить.

    Ваше распределение не известно, его нужно оценивать. И нормальное здезь не подойдет потому что ни какой симметрии у вас нет. От 1 метра и выше, то есть распределение будет другое его надо оценить, первый кандидаты это экспонентное распределение , и им подобные. Потому что мы имеем некое скопление и затем чем дальше тем меньше вероятность (как я понял).

    Что бы ответить на ваш вопрос надо произвести моделирование распределения и оценку его параметров. Потом мы можем отвечать что например 5% процентов людей будет на расстоянии от например 20-25 метров. Или любые другие вопросы.
    Ответ написан
  • Какие требование к данным для t теста?

    Maksim_64
    @Maksim_64
    Data Analyst
    т.е я правильно понимаю, что распределение исходных данных может быть каким угодно, главное чтобы при бустрапировании выборки средние этого распределения имели нормальное распределение?
    Нет, ты в корне не правильно понимаешь. Если ты осуществляешь случайную выборку из ЛЮБОГО распределенния, берешь СРЕДНЕЕ значение по выборке, так распределение ТАКИХ СРЕДНИХ ЗНАЧЕНИЙ будет всегда нормально, независимо от распределения популяции, при достаточно большем размере выборки. Это CLT (central limit theorem).

    t-test сравнивает средние по группам. Так вот основные ДОПУЩЕНИЯ это.
    1. Независимость
    2. Отсутствие экстремальных величин.
    3. И НОРМАЛЬНОЕ распределение групп по которым считались средние для сравнения.
    Это основные подробнее гугли.
    Ответ написан
    3 комментария
  • Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?

    Maksim_64
    @Maksim_64
    Data Analyst
    И так о сути вашей задачи. Перед вами "случайная выборка" sample distribution. Вы утверждаете что общее распределение (population distribution) нормально. Откуда вы это взяли я не знаю, но допустим может условие проблемы таково. Функция нормального распределения имеет два параметра среднее (mean) и стандартное отклонение (standard deviation). Общий вид N(mu, std). Ваша статистическая задача это осуществить аппроксимацию этих параметров на основе данных случайной выборки (sample).

    Нужно найти точку максимальной распространенности вида (т.е. на какой высоте его больше всего).
    У непрерывных распределений не бывает точек, бывает интервалы. Вероятность в любой точке равна нулю, это одно из главных различий дискретного pmf (probability mass function) от непрерывного pdf (probability density function).

    Стандартные функции определения нормального распределения по выборке, предполагают, что оно равно мат. ожиданию выборки.
    Что это вообще значит, математическое ожидание это параметр функции распределения, что значит равна вообще ничего не понял.

    Но это не учитывает, что центр может быть за пределами анализируемого диапазона

    Вообще ничего не понял, есть распределение что такое предел анализируемого диапазона где вы это нашли?

    Теперь к ответу на оба ваши вопроса:
    На ваших графиках попытка аппроксимировать pdf, для данных на основе наблюдений. В реальности это делается ну например методами MLE (Maximum Likelihood Estimation) Это числовой метод. В том числе полно примеров и на python. Так и гуглить python maximum likelihood estimation normal distribution. Аналитические методы тоже есть конечно. гуглить population mean from sample distribution. Ну и там в определенном интервале будет лежать mean. Но аналитические методы подразумевают слабовыполнимые допущения нужно знать стандартное отклонение популяции например, по этому на практике использует числовые то есть MLE. По терминалогии это классическая статистическая задача на основе выборки осуществить (statistical inference) то есть аппроксимировать параметры population distribution. Точную терминологию (на русском) смотри, в вики. Я привык все это дело на английском делать.
    Ответ написан
    7 комментариев
  • Как интерпретировать результат теста Шапиро-Уилка и Колмагорова - Смирнова?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну все ли вы делаете правильно это совершенно неизвестно, (Это большой вопрос как сделана выборка, что за данные и т.д. вообщем соблюдены ли все условия) и так сходу не ответишь Это надо сидеть и разбираться (иметь ваши данные и время (сразу скажу делать я этого не буду)). А вот на остальное ответить вполне себе можно.

    1. График о чем говорит? Нормальное распределение подразумевает, крайне маленькие вероятности у "хвостов" распределения, то есть если вы отклонились более 2 стандартных отклонений то там 5 процентов всего по 2.5 с каждого края, на вашем же графике далекие от среднего значения НЕ являются маловероятными событиями. В статистике это называется fat tails. То есть это не НОРМАЛЬНОЕ распределение не будет такого что 95 процентов лежат в пределах двух стандартных отклонений, это значение будет меньше (Экстремальные величины не являются маловероятными).

    2. По поводу теста тут все просто. Что такое p-value? Это вероятность тестовой статистики при условии НУЛЕВАЯ Гипотеза ИСТИННА. Поговорим о логике эксперемента. Допустим мы говорим средний рост прохожего (мужского) пола 175см. Это ПАРАМЕТР популяции который мы хотим затестить посредством СЛУЧАЙНОЙ выборки. Мы выходим на улицу берем 500 (например дизайн эксперемента я опускаю) мужчин измеряем их рост и берем среднее значение это ТЕСТОВАЯ статистика, далее мы нормализуем (трансформируем наши ТЕСТОВУЮ статистику после чего она измерятся не в см а в стандартных отклонениях) ну и находим вероятность ТЕСТОВОЙ статистике из такого распределения где ПАРАМЕТР истинен. Если это вероятность ниже установленного заранее порога, мы отвергаем нулевую гипотезу. Потому что мы говорим это очень маловероятно видеть такую ТЕСТОВУЮ статистику при условии нулевой гипотезы истинной. Это общая направление ИДЕЯ. Частные имплементации могут отличаться в зависимости сколько данных у нас есть что мы знаем о распределении популяции и .т.д. Это была общая логика.

    У теста Колмагорова-Смирнова есть своя формула для ТЕСТОВОЙ Статистики которая показывает своего рода "дистанцию" между распределением выборки и в данном случае нормальным распределением (Упрощенно читайте подробнее) и вычисляет ее вероятность. В вашем случае он вам показал что вероятность равна нулю. (То есть уверенно отвергаем нулевую гипотезу).

    Это что можно понять из предоставленной вами информации, повторюсь ответить правильно ли вы все сделали возможности нет.
    Ответ написан
    Комментировать
  • Какой тут критерий подойдет для аб тестирования?

    Maksim_64
    @Maksim_64
    Data Analyst
    A_p - пропорция НЕ отмененных в контрольной 0%
    B_p - пропорция не отменных в тестовой группе
    Нулевой гипотезой будет A_p = B_p
    Альтернативной гипотезой A_p не равно B_p

    Находите p-value (вероятности увидеть B_p при условии A_p истина) если p-value меньше заранее установленного уровня например в 5% то отвергаете нулевую гипотезу и делаете вывод ЕСТЬ статистическая разница, если нет то мы не имеем достаточно доказательств для отвергания нулевой гипотезы.

    в итоге что тут может подойти ztest чтобы я узнал:

    ztest - тут не подойдет. Вам нужен тест Фишера на различие двух пропорций. Гуглите Fisher's exact test for two proportions. И там пошагово найдите p-values. И решите вашу задачу.
    Ответ написан
  • Как обеспечить сопоставимость данных с разным объёмом выборки?

    Maksim_64
    @Maksim_64
    Data Analyst
    Очень обычная ситуация называется Sampling Distribution. По порядку. Есть Population параметр (истинный параметр) для нас он неизвестен, мы осуществляем его измерение посредством случайной выборки при этом размер самой выборки не постоянен что вполне нормально. В таких случаях используется Sampling Distribution. Все формулы mean, std, пропорции и.тд. они идут с учетом размера выборки.
    Пример например берем какой нибудь опрос Позитивно ли вы смотрите в будущее? например в один месяц опросили в одном городе 2000 респондентов и получили 30 процентов ответили позитивно. Через 3 месяца мы опросили 1300 респондентов в этом же городе и получили ответ например 50% ответили позитивно. Это абсолютно рабочая ситуация.

    Мы можем произвести гипотезные тесты например это настроение улучшилось, или это объяснимо просто делом случая. Посчитать p-value, интервалы ит.д все как обычно. Ну например в моем примере мы их будем сравнивать используя дистрибуцию разниц пропорций в Sampling Distribution. В общем гуглите Sampling Distribution изучайте там все формулы с учетом размера выборки и потом проводите гипотезные тесты относительно параметра который вы измеряете.
    Ответ написан
    Комментировать
  • Как правильно обработать статистику опроса о маршрутах транспорта?

    Maksim_64
    @Maksim_64
    Data Analyst
    Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
    Например:
    1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
    2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
    3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
    и т.д.
    Если эксперимент не был организован как нужно то интерпретировать нечего.
    Если я вас правильно понял то выборка была произведена через сайт Госуслуги.
    Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

    Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
    Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

    Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
    Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
    По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
    По поводу весов опять таки да при условии что респонденты были разбиты на группы.
    Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.
    Ответ написан
    2 комментария