Ответы пользователя по тегу Математическая статистика
  • Какой алгоритм может определить аномалии на графике?

    @dmshar
    Можно, конечно, заняться изобретением велосипеда. А можно набраться ума-разума, начав с теории. Тем более - она вам в жизни пригодится, т.к. ту задачу которую вы описали встречается в разных видах в экономике, информационной безопасности, медицине, технической диагностике, маркетинге - в том числе и аномалии посещения страниц, типа ваших - и еще в десятках других предметных областей, и изучив эту задачу вы обеспечите реальную заинтересованность в вас как специалиста десятков работодателей в будущем.
    Теория эта называется действительно по разному - "поиск и выявления аномалий", "changepoint detection", "обнаружение разладок и выбросов" и пр. В первом приближении все сводится к анализу временнЫх рядов и методам классификации, и обнаружении изменения моделей, которыми данные описываются ( "превышение уставок", выход за 3сигма и пр. - это только самые тривиальные и наивные из методов, которые сегодня применяются. Только, конечно не "процентные колебания"). Причем, если хотите все сделать по-серьезному, то надо изучать и параметры самих рядов (не только среднюю и дисперсию), проверять коррелированность посещения страниц сайтов, выявлять тренды и сезонность, проверять наличие кластеризации в данных и пр. пр.пр.
    Ну а можно, конечно, и "побыстрее", лишь бы что-то там квазиумное считало. Зато есть что заказчику показать. Тогда да - посчитали среднее, наши отклонения, нарисовали красивый график, впечатлили заказчика, получили вознаграждения, профит. Каждый выбирает свой путь.
    Ответ написан
    2 комментария
  • Как посчитать минимальную выборку?

    @dmshar
    "Сигма с фиксированными значениями" покажет вам не более, как количество (в статистическом смысле) элементов выборки, лежащих в интервале сигма, два сигма, три сигма и т.д.
    На сколько я понял вашу задачу, вам надо определить объем выборки, который нужно иметь, что-бы с заданной достоверностью утверждать, что процент конверсии равен Х.
    Задача не столь тривиальная как кажется.
    Есть подробное и несложное трактование в работе ( на медицинской тематике, но математическая суть подхода от этого не меняется)
    kingmed.info/media/book/2/1317.pdf - стр.86-94.
    Еще могу рекомендовать статью
    https://cyberleninka.ru/article/n/opredelenie-mini...
    Можно глянуть еще тут:
    biostat-r.blogspot.com/2015/03/trialsize.html
    (тоже с медицинским уклоном)

    Если владеете английским - то
    r-video-tutorial.blogspot.com/2017/07/power-analys...
    Ответ написан
    Комментировать
  • Есть ли более 1 кластера?

    @dmshar
    Вообще то есть такой раздел Data Mining, как кластерный анализ. И для решения задач типа вaшей разработано наверное десятков пять различных методов. В том числе - и "без ручного задания порога" (скажу по секрету - можно обойтись вообще без какого-бы то ни было задания порога).
    Ваш случай - простейший, одномерный. В жизни встречаются задачи намного сложнее. Но в любом случае, выбор подхода и конкретного метода кластеризации зависит от данных - и от того, в какой шкале они измерены, и сколько их, и известно-ли их распределения, и какие меры близости можно ввести в пространстве признаков. Там же рассматривается вопрос, а как ОБОСНОВАНО выбрать количество, на которых разбивается выборка и как выявить аномалии-выбросы. В довершении всего имеются методы сравнения методов между собой.
    Если говорить конкретно про Ваш пример, что данных настолько мало и кластеры настолько выражены, что тут сомнений нет. Но а если Вас проблема интересует более глубоко - то без изучения теории не обойтись. Часто кластеризацию изучают как одно из направлений в рамках машинного обучения и рассматривают в соответствующих книгах/курсах. Могу порекомендовать в качестве "затравки"-

    https://habrahabr.ru/post/101338/
    https://habrahabr.ru/company/ods/blog/325654/
    Флах _"Машинное обучение - наука и искусство построения алгоритмов",
    Барсегян "Анализ данных и процессов"
    и более серьезные источники:
    Мандель "Кластерный анализ"
    Ким "Факторный, дискриминантный и кластерный анализ"
    Миркин "Методы кластер-анализа"
    Aggarwal, Chandan K. "Reddy-Data Clustering_ Algorithms and Applications"

    и пр.пр.пр. Источников по теме -море.
    Удачи.
    Ответ написан
    7 комментариев
  • Как оценить отклонение величины от ожидаемого значения?

    @dmshar
    Основная идея - написана выше. От себя дополню - по двум опытам (две точки в каждой из выборок) никакие результаты не будут статистически значимы. Человеческим языком это означает, что корректного вывода по такому набору малому данных сделать невозможно.
    Ответ написан
    Комментировать
  • Могли бы объяснить что такое квартиль и медианна?

    @dmshar
    Если данные распределены не по нормальному закону распределению ( а они практически всегда так распределены, просто в одних случаях - близко к нормальному, а в других - нет), то как раз среднее арифметическое есть малоинформативная величина, в отличии от медианы.
    Наглядный пример:
    Заработная плата по предприятию
    -$100, $110,$120,$130,$140,$150,$160,$170,$200,$250,$900
    Среднее - 220,9. О чем она говорит? Ага средняя зарплата вполне достойная :-)
    Медина - 150. Вполне понятно - половина людей получает меньше, вторая половина больше.
    Квартили - это разбиение выборки на четыре равные по количеству элементов в них части.
    Из ваших данных, кстати, видно, что они не очень-то нормальные.
    Ответ написан
  • Мат. статистика: какой критерий достоверности выбрать для эксперимента с одним испытуемым?

    @dmshar
    По сути - это классическая задача, описываемая в любом учебнике по анализу гипотез.
    Для "работы" в этом случае стандарт - использование двухвыборочного критерия Вилкоксона-Манна-Уитни. (Только не спутайте его с одновыборочным критерием Вилкоксона - он предназначен для другого).
    Учтите, что совсем "классический" t-критерий Стьюдента (проверка на равенство матожиданий) тут не пройдет, т.к. что бы им пользоваться, надо доказать нормальность закона распределения, на что данных явно не хватит.
    Ответ написан
    Комментировать
  • Как по-простому определить наличие кластеров во временных данных?

    @dmshar
    Если делать все "как надо", то первым делом надо ответить на вопрос - распределение выборки отличается от равномерного или нет. Если отличается - то тогда можно идти дальше - искать кластеры, или выяснять, какое у выборки (а через нее - и у генеральной совокупности) распределение в действительности, и т.д. По большому счету, в дальнейшем даже выбор метода кластеризации, если его делать "правильно", должен зависеть и от результат этого этапа в том числе. Если-же не отличается - ну тогда и так все ясно, дальнейших исследований не требуется. Не забудьте после применения критерия проверить значимость полученных результатов, что-бы понимать, на сколько им можно доверять.

    Для определения "равномерности" выборки существуют ряд специальных критериев, наиболее распространенный из которых - т.н. критерий Шермана. Вычислительно простой и статистически мощный. (Существуют и другие критерии, но оптимальный выбор конкретного критерия - это уже тема более глубокого анализа).

    И еще хочу обратить ваше внимание, что кластеризация временнЫх рядов (именно рядов!) - это немного другое, чем просто кластеризация значений этих самых рядов (по сути, не отличающееся от кластеризации статических данных). Разные цели и разные методы.
    Ответ написан
    2 комментария
  • Смысл математического ожидания, дисперсии и среднеквадратического отклонения?

    @dmshar
    Могу порекомендовать вот такую книгу: С. Гланц. Медико-биологическая статистика.
    Есть в интернете.
    Поскольку книга написана для лекарей и прочих биологов, все понятия даются предельно ясно, понятно и без множества формально-формульных определений. Более простого объяснения этих понятий для "чайников" я не встречал. Вместе с тем книга написана так, что тот, кто не ставит сделать статистику своей специальностью, а хочет лишь научиться ею правильно пользоваться, вполне может это сделать, начав свое обучение именно с этой книжки.
    И не смотрите, что она "для врачей", она вполне подходит и для других желающих.
    Ответ написан
    1 комментарий
  • Существует ли нейронная сеть для поиска коэффициента корреляции?

    @dmshar
    К ответу коллеги дополню - этот коэффициент применим только если известно, что исходные данные имеют нормальное распределение и если они (данные) измерены в шкалах интервалов или отношений. Для данных измеренных в других шкалах - порядка, номинальной, дихатомической - используют другие аналоги данной формулы.
    Литература - если для справки - Кобзарь А.И "Прикладная математическая статистика".
    Если для изучения - любая книга по матстатистике, где есть раздел "корреляционный анализ".
    Ответ написан
    Комментировать
  • Возможна ли ситуация, когда при сравнении двух рядов существует несколько коэффициентов корреляции?

    @dmshar
    Из одного ряда можно получить много коэффициентов корреляции используя автокорреляцию с разным лагом.
    Можно напридумывать все что хотите. Вопрос - зачем? Если объясните - можно будет более разумно выбрать инструмент.
    Ответ написан
    Комментировать