@modernstyle
Code GOD

Какой алгоритм может определить аномалии на графике?

У меня есть данные по визитам на ряд страниц сайта, в течении последних 30 дней. Выглядит как-то так:

Страница 1: [1,2,0,4,6,1,7,4,7]
Страница 2: [3,4,12,1,7,1,2,0]


Таких страниц очень много. Мне необходимо вычленить страницы, которые испытывали необычный приток либо отток пользователей, в любой момент времени. Какой алгоритм или последовательность алгоритмов подойдет для этой задачи лучше всего?

UPD: пока смотрю на алгоритм машинного обучения anomalies detection, но возможно есть вариант побыстрее, например (мысли вслух) можно разбивать массивы данных на несколько равных частей и сравнивать их процентные колебания. Если все в пределах 0, тогда можно считать что аномалий нет, если где-то скачок - значит что-то пошло не так. Скорее всего, так и буду делать.
  • Вопрос задан
  • 393 просмотра
Решения вопроса 1
2ord
@2ord
Можно высчитывать дисперсию в некотором промежутке времени (окно) и если значение выходит за пределы среднего +/- 3σ, то, возможно, это аномалия.
https://www.slideshare.net/YoshihiroIwanaga/anomal...
https://stackoverflow.com/questions/2303510/recomm...
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 3
varenich
@varenich
Аналитик
Такой подход ничего не даст.
Изучи когортный анализ и Lean-метрики. Их еще называют AAARR.
Ответ написан
@dmshar
Можно, конечно, заняться изобретением велосипеда. А можно набраться ума-разума, начав с теории. Тем более - она вам в жизни пригодится, т.к. ту задачу которую вы описали встречается в разных видах в экономике, информационной безопасности, медицине, технической диагностике, маркетинге - в том числе и аномалии посещения страниц, типа ваших - и еще в десятках других предметных областей, и изучив эту задачу вы обеспечите реальную заинтересованность в вас как специалиста десятков работодателей в будущем.
Теория эта называется действительно по разному - "поиск и выявления аномалий", "changepoint detection", "обнаружение разладок и выбросов" и пр. В первом приближении все сводится к анализу временнЫх рядов и методам классификации, и обнаружении изменения моделей, которыми данные описываются ( "превышение уставок", выход за 3сигма и пр. - это только самые тривиальные и наивные из методов, которые сегодня применяются. Только, конечно не "процентные колебания"). Причем, если хотите все сделать по-серьезному, то надо изучать и параметры самих рядов (не только среднюю и дисперсию), проверять коррелированность посещения страниц сайтов, выявлять тренды и сезонность, проверять наличие кластеризации в данных и пр. пр.пр.
Ну а можно, конечно, и "побыстрее", лишь бы что-то там квазиумное считало. Зато есть что заказчику показать. Тогда да - посчитали среднее, наши отклонения, нарисовали красивый график, впечатлили заказчика, получили вознаграждения, профит. Каждый выбирает свой путь.
Ответ написан
daager
@daager
Обнаружение аномалий в данных сетевого мониторинга... - теория, названия алгоритмов, полезные ссылки
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы