• Как обеспечить сопоставимость данных с разным объёмом выборки?

    Maksim_64
    @Maksim_64
    Data Analyst
    Очень обычная ситуация называется Sampling Distribution. По порядку. Есть Population параметр (истинный параметр) для нас он неизвестен, мы осуществляем его измерение посредством случайной выборки при этом размер самой выборки не постоянен что вполне нормально. В таких случаях используется Sampling Distribution. Все формулы mean, std, пропорции и.тд. они идут с учетом размера выборки.
    Пример например берем какой нибудь опрос Позитивно ли вы смотрите в будущее? например в один месяц опросили в одном городе 2000 респондентов и получили 30 процентов ответили позитивно. Через 3 месяца мы опросили 1300 респондентов в этом же городе и получили ответ например 50% ответили позитивно. Это абсолютно рабочая ситуация.

    Мы можем произвести гипотезные тесты например это настроение улучшилось, или это объяснимо просто делом случая. Посчитать p-value, интервалы ит.д все как обычно. Ну например в моем примере мы их будем сравнивать используя дистрибуцию разниц пропорций в Sampling Distribution. В общем гуглите Sampling Distribution изучайте там все формулы с учетом размера выборки и потом проводите гипотезные тесты относительно параметра который вы измеряете.
    Ответ написан
    Комментировать