@XanKraegor

Как обеспечить сопоставимость данных с разным объёмом выборки?

Здравствуйте! Представьте ситуацию, когда нужно сопоставить данные за один месяц с данными за другой, но при этом данные поступают от разного количества респондентов. При этом то, от кого данные поступают, конечно же влияет на результаты исчисляемых показателей. Можно ли при этом как-то оценить динамику изучаемых показателей, если не использовать самый тривиальный метод, в котором мы сравниваем данные только от тех респондентов, которые есть и в текущем, и в предыдущем периоде?
Прошу дать наводку о существовании каких-либо подходов для такой ситуации.
  • Вопрос задан
  • 183 просмотра
Пригласить эксперта
Ответы на вопрос 2
Maksim_64
@Maksim_64
Data Analyst
Очень обычная ситуация называется Sampling Distribution. По порядку. Есть Population параметр (истинный параметр) для нас он неизвестен, мы осуществляем его измерение посредством случайной выборки при этом размер самой выборки не постоянен что вполне нормально. В таких случаях используется Sampling Distribution. Все формулы mean, std, пропорции и.тд. они идут с учетом размера выборки.
Пример например берем какой нибудь опрос Позитивно ли вы смотрите в будущее? например в один месяц опросили в одном городе 2000 респондентов и получили 30 процентов ответили позитивно. Через 3 месяца мы опросили 1300 респондентов в этом же городе и получили ответ например 50% ответили позитивно. Это абсолютно рабочая ситуация.

Мы можем произвести гипотезные тесты например это настроение улучшилось, или это объяснимо просто делом случая. Посчитать p-value, интервалы ит.д все как обычно. Ну например в моем примере мы их будем сравнивать используя дистрибуцию разниц пропорций в Sampling Distribution. В общем гуглите Sampling Distribution изучайте там все формулы с учетом размера выборки и потом проводите гипотезные тесты относительно параметра который вы измеряете.
Ответ написан
Комментировать
hint000
@hint000
у админа три руки
Дык нет такой магии, исправляющей влияние выборки на результаты. В том числе и поэтому существует знаменитая фраза: https://ru.wikipedia.org/wiki/Ложь,_наглая_ложь_и_...
Не-не-не, конечно, можно взять среднее между значением, вычисленным по полной выборке и значением, вычисленным по усечённой выборке ("от тех респондентов, которые есть и в текущем, и в предыдущем периоде"). (Или то же самое в более общей форме: данные от завсегдатаев брать с бОльшим весом, чем данные от казуалов). Вероятно, в некоторых случаях это будет неплохим приближением (а в других случаях будет плохим). Всё равно это будет ещё одна "ложь", деваться некуда.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы