Как вычислить размер минимальной выборки для анализа влияния фактора на CTR рекламы?
Есть некая гипотеза о влиянии некоего фактора на CTR объявления.
Не суть важно что за гипотеза. Допустим демография (возраст).
Скажем есть две выборки — с отбором по критерию и без.
Допустим реклама покупается покликово.
Ожидаемое различие по CTR — 1-5% от среднего значения (т.е. если без демографии будет 0,5% то с демографией скажем 0,52%).
Должны ли у меня быть несколько пар выборок, которые надо сравнивать между собой?
Или достаточно одной пары — с и без?
Каков должен быть размер выборки (и колво выборок) для достоверности 95%?
Что-то совсем запутался. Не мое это :)
UPD: CTR это click-through rate — показатель кликабельности. Определяется как отношение числа кликов на баннер к числу его показов, измеряется в процентах.
Достаточно будет двух если критерий один(демография например).
Но скажем разница 0.5 и 0.52 на уровне погрешности, тут либо гигантские выборки нужны, ну и как полагаться на них я даже не знаю.
Хотелось бы оперется на какие-то цифры, а не так вот «мне кажется».
0.5 и 0.52 по моему мнению отличаются очень заметно, особенно если вычесть постоянную составляющую, ну скажем 0.45 — так уже будет 0.05 и 0.07 что уже не так пугает… в общем абсолютные цифры не так страшны, важна структура зависимости. Вот тут я начинаю плавать :)
Чтобы понять зависимость 0.5 и 0.52 надо скажем n переходов, чтобы понять зависимость 0.05 и 0.07, надо 10
*n переходов.
Вы описали бы конкретный случай, сколько миллионов показов у вас, сколько тысяч переходов.