Как вычислить дисперсию (генерировать псевдовыборки нельзя)?
Есть 100 наблюдений.
Для каждого из наблюдений может произойти
одно из четырех событий:
событие A - 15.9%
событие B - 13.0%
событие C - 31.0%
событие D - 40.1%
(вместе - 100%)
В суме получаем 100 значений (напремер A случилось 16 раз, B - 13,C - 31,D - 40)
Нужно найти SD (сигма) для каждого события, чтобы узнать, например будет ли значительным отклонением от нормы, если событие С произошло 37 раз а не 31.
(генерировать псевдовыборки нельзя)
Для правильного вопроса надо знать половину ответа
ЕМНИП, дисперсия случайной величины - это матожидание квадрата отклонения случайной величины от её матожидания
D(X) = M((X-M(X))2)
То есть к вашей задаче понятие "дисперсия" неприменимо.
Здесь у вас речь идёт, скорее о проверке статистической гипотезы.
k = 100 - количество испытаний
m = 37 - количество событий C
p = 0.31 - гипотетическая вероятность события C
ε = |m/k-p| = |0.37-0.31| = 0.06
Вероятность того, что такое произошло оценивается как
P{|m/k-p| ≥ ε} ≤ p∙(1-p)/ε2/k = 0.31∙0.69/0.062/100 ≈ 0.59
Так что такой результат достаточно вероятен.
Если же предположить, что был 1000000 испытаний и 370000 раз выпало C, то вероятность такого результата уже будет ≤ 0.000059, что крайне маловероятно.
Андрей: В этом случае ε = 0 и вероятность такого результата ≤ ∞, то есть если такой результат был получен, то он полностью соответствует первоначальной гипотезе.
Понял свою ошибку - неверно прочитал Вашу формулу. Хотя она мне все равно не очень понятна. При отклонении от моды например на 1 испытание из 1.000.000 (m/k=0.310001) значение получается значительно больше 1, почему тогда оно обозначено у Вас как "вероятность" ?
Андрей: А там не зря стоит знак "меньше или равно", это оценка сверху. Понятно, что любая вероятность P будет меньше или равна единице, но условие P ≤ 1000 при этом тоже будет истинным.
Обычно вводится некая величина уровня значимости α, например α = 0.05, по которой проводят границу P. При P < α считается, что гипотеза неверна.
Андрей: Для данного примера при ста испытаниях и α = 0.05 гипотеза не пройдёт при ε ≥ 0.207, то есть при получении менее 11 или более 52 событий C.
При миллионе испытаний и том же уровне значимости гипотезу нарушают менее 307932 или более 312068 событий C.