Ответы пользователя dmshar по тегу «Математическая статистика»

Какой алгоритм может определить аномалии на графике?

dmshar @dmshar

Можно, конечно, заняться изобретением велосипеда. А можно набраться ума-разума, начав с теории. Тем более - она вам в жизни пригодится, т.к. ту задачу которую вы описали встречается в разных видах в экономике, информационной безопасности, медицине, технической диагностике, маркетинге - в том числе и аномалии посещения страниц, типа ваших - и еще в десятках других предметных областей, и изучив эту задачу вы обеспечите реальную заинтересованность в вас как специалиста десятков работодателей в будущем.
Теория эта называется действительно по разному - "поиск и выявления аномалий", "changepoint detection", "обнаружение разладок и выбросов" и пр. В первом приближении все сводится к анализу временнЫх рядов и методам классификации, и обнаружении изменения моделей, которыми данные описываются ( "превышение уставок", выход за 3сигма и пр. - это только самые тривиальные и наивные из методов, которые сегодня применяются. Только, конечно не "процентные колебания"). Причем, если хотите все сделать по-серьезному, то надо изучать и параметры самих рядов (не только среднюю и дисперсию), проверять коррелированность посещения страниц сайтов, выявлять тренды и сезонность, проверять наличие кластеризации в данных и пр. пр.пр.
Ну а можно, конечно, и "побыстрее", лишь бы что-то там квазиумное считало. Зато есть что заказчику показать. Тогда да - посчитали среднее, наши отклонения, нарисовали красивый график, впечатлили заказчика, получили вознаграждения, профит. Каждый выбирает свой путь.

Ответ написан более трёх лет назад

2 комментария

Как посчитать минимальную выборку?

dmshar @dmshar

"Сигма с фиксированными значениями" покажет вам не более, как количество (в статистическом смысле) элементов выборки, лежащих в интервале сигма, два сигма, три сигма и т.д.
На сколько я понял вашу задачу, вам надо определить объем выборки, который нужно иметь, что-бы с заданной достоверностью утверждать, что процент конверсии равен Х.
Задача не столь тривиальная как кажется.
Есть подробное и несложное трактование в работе ( на медицинской тематике, но математическая суть подхода от этого не меняется)
kingmed.info/media/book/2/1317.pdf - стр.86-94.
Еще могу рекомендовать статью
https://cyberleninka.ru/article/n/opredelenie-mini...
Можно глянуть еще тут:
biostat-r.blogspot.com/2015/03/trialsize.html
(тоже с медицинским уклоном)

Если владеете английским - то
r-video-tutorial.blogspot.com/2017/07/power-analys...

Ответ написан более трёх лет назад

Комментировать

Есть ли более 1 кластера?

dmshar @dmshar

Вообще то есть такой раздел Data Mining, как кластерный анализ. И для решения задач типа вaшей разработано наверное десятков пять различных методов. В том числе - и "без ручного задания порога" (скажу по секрету - можно обойтись вообще без какого-бы то ни было задания порога).
Ваш случай - простейший, одномерный. В жизни встречаются задачи намного сложнее. Но в любом случае, выбор подхода и конкретного метода кластеризации зависит от данных - и от того, в какой шкале они измерены, и сколько их, и известно-ли их распределения, и какие меры близости можно ввести в пространстве признаков. Там же рассматривается вопрос, а как ОБОСНОВАНО выбрать количество, на которых разбивается выборка и как выявить аномалии-выбросы. В довершении всего имеются методы сравнения методов между собой.
Если говорить конкретно про Ваш пример, что данных настолько мало и кластеры настолько выражены, что тут сомнений нет. Но а если Вас проблема интересует более глубоко - то без изучения теории не обойтись. Часто кластеризацию изучают как одно из направлений в рамках машинного обучения и рассматривают в соответствующих книгах/курсах. Могу порекомендовать в качестве "затравки"-

https://habrahabr.ru/post/101338/
https://habrahabr.ru/company/ods/blog/325654/
Флах _"Машинное обучение - наука и искусство построения алгоритмов",
Барсегян "Анализ данных и процессов"
и более серьезные источники:
Мандель "Кластерный анализ"
Ким "Факторный, дискриминантный и кластерный анализ"
Миркин "Методы кластер-анализа"
Aggarwal, Chandan K. "Reddy-Data Clustering_ Algorithms and Applications"

и пр.пр.пр. Источников по теме -море.
Удачи.

Ответ написан более трёх лет назад

7 комментариев

Как оценить отклонение величины от ожидаемого значения?

dmshar @dmshar

Основная идея - написана выше. От себя дополню - по двум опытам (две точки в каждой из выборок) никакие результаты не будут статистически значимы. Человеческим языком это означает, что корректного вывода по такому набору малому данных сделать невозможно.

Ответ написан более трёх лет назад

Комментировать

Могли бы объяснить что такое квартиль и медианна?

dmshar @dmshar

Если данные распределены не по нормальному закону распределению ( а они практически всегда так распределены, просто в одних случаях - близко к нормальному, а в других - нет), то как раз среднее арифметическое есть малоинформативная величина, в отличии от медианы.
Наглядный пример:
Заработная плата по предприятию
-$100, $110,$120,$130,$140,$150,$160,$170,$200,$250,$900
Среднее - 220,9. О чем она говорит? Ага средняя зарплата вполне достойная :-)
Медина - 150. Вполне понятно - половина людей получает меньше, вторая половина больше.
Квартили - это разбиение выборки на четыре равные по количеству элементов в них части.
Из ваших данных, кстати, видно, что они не очень-то нормальные.

Ответ написан более трёх лет назад

2 комментария

Мат. статистика: какой критерий достоверности выбрать для эксперимента с одним испытуемым?

dmshar @dmshar

По сути - это классическая задача, описываемая в любом учебнике по анализу гипотез.
Для "работы" в этом случае стандарт - использование двухвыборочного критерия Вилкоксона-Манна-Уитни. (Только не спутайте его с одновыборочным критерием Вилкоксона - он предназначен для другого).
Учтите, что совсем "классический" t-критерий Стьюдента (проверка на равенство матожиданий) тут не пройдет, т.к. что бы им пользоваться, надо доказать нормальность закона распределения, на что данных явно не хватит.

Ответ написан более трёх лет назад

Комментировать

Как по-простому определить наличие кластеров во временных данных?

dmshar @dmshar

Если делать все "как надо", то первым делом надо ответить на вопрос - распределение выборки отличается от равномерного или нет. Если отличается - то тогда можно идти дальше - искать кластеры, или выяснять, какое у выборки (а через нее - и у генеральной совокупности) распределение в действительности, и т.д. По большому счету, в дальнейшем даже выбор метода кластеризации, если его делать "правильно", должен зависеть и от результат этого этапа в том числе. Если-же не отличается - ну тогда и так все ясно, дальнейших исследований не требуется. Не забудьте после применения критерия проверить значимость полученных результатов, что-бы понимать, на сколько им можно доверять.

Для определения "равномерности" выборки существуют ряд специальных критериев, наиболее распространенный из которых - т.н. критерий Шермана. Вычислительно простой и статистически мощный. (Существуют и другие критерии, но оптимальный выбор конкретного критерия - это уже тема более глубокого анализа).

И еще хочу обратить ваше внимание, что кластеризация временнЫх рядов (именно рядов!) - это немного другое, чем просто кластеризация значений этих самых рядов (по сути, не отличающееся от кластеризации статических данных). Разные цели и разные методы.

Ответ написан более трёх лет назад

2 комментария

Смысл математического ожидания, дисперсии и среднеквадратического отклонения?

dmshar @dmshar

Могу порекомендовать вот такую книгу: С. Гланц. Медико-биологическая статистика.
Есть в интернете.
Поскольку книга написана для лекарей и прочих биологов, все понятия даются предельно ясно, понятно и без множества формально-формульных определений. Более простого объяснения этих понятий для "чайников" я не встречал. Вместе с тем книга написана так, что тот, кто не ставит сделать статистику своей специальностью, а хочет лишь научиться ею правильно пользоваться, вполне может это сделать, начав свое обучение именно с этой книжки.
И не смотрите, что она "для врачей", она вполне подходит и для других желающих.

Ответ написан более трёх лет назад

1 комментарий

Существует ли нейронная сеть для поиска коэффициента корреляции?

dmshar @dmshar

К ответу коллеги дополню - этот коэффициент применим только если известно, что исходные данные имеют нормальное распределение и если они (данные) измерены в шкалах интервалов или отношений. Для данных измеренных в других шкалах - порядка, номинальной, дихатомической - используют другие аналоги данной формулы.
Литература - если для справки - Кобзарь А.И "Прикладная математическая статистика".
Если для изучения - любая книга по матстатистике, где есть раздел "корреляционный анализ".

Ответ написан более трёх лет назад

Комментировать

Возможна ли ситуация, когда при сравнении двух рядов существует несколько коэффициентов корреляции?

dmshar @dmshar

Из одного ряда можно получить много коэффициентов корреляции используя автокорреляцию с разным лагом.
Можно напридумывать все что хотите. Вопрос - зачем? Если объясните - можно будет более разумно выбрать инструмент.

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт