Pavel_Osipov
@Pavel_Osipov
Программист, в основном web

Архив статистики поведения пользователей

Доброго дня
В рамках моего кандидатского и исследования занимаюсь обнаружением аномального поведения пользователей ( anomaly detection ) информационных систем путём создания моделей поведения. Сама модель уже есть и на наших toy-problem (небольших искусственно генерированных данных) она показывает неплохой результат обнаружения. Но для полноценного исследования нужна реальные данные, а их нет.
В связи с этим вопрос, хотел-бы кто-то поделится такого типа данными? В ответ могу поделится как результатами исследования так и прислать уже опубликованные статьи о нашем подходе.

В идеале нам нужна статистика поведения большого количества пользователей такого вида:
id — в идеале просто autoincremented value
user_id
sessinon_id
transaction_id
datetime/timestamp (optional)

Где,
user_id — уникальный идентификатор пользователя
sessinon_id — идентификатор сессии работы пользователя в системе (нам важно выделять т.н. пути — наборы идентификаторов транзакций совершённых действий с момента входа в систему и до выхода из неё + важно чтобы последовательность действий в базе также соответствовала последовательности их совершения).
transaction_id — уникальный идентификатор одного из возможных действий в системе, т.е. к примеру получение профиля человека — это один тип транзакций, вне зависимости от того, чей конкретно профиль запрошен. Обновление профиля, уже другой transaction_id…
datetime/timestamp (optional) — Нужен в принципе для обучения моделей данными в правильной последовательности, соответствующей их свершению в реальной жизни.

И вторая таблица
user_id
user_role

Т.е. роль (набор ролей) пользователя в рамках системы. К примеру, секретарь, окулист, учитель математики…

В идеале было-бы также здорово иметь как наборы с заведомо корректными данными, так и с данными в которых присутствует аномальная активность. Для тестирования и кросс-валидации… Сами понимаете, мечтать не вредно.

Если кто-нибудь заинтересовался, буду бесконечно благодарен. Ну и конечно результатами исследования поделюсь
  • Вопрос задан
  • 3382 просмотра
Пригласить эксперта
Ответы на вопрос 3
@bondbig
Если проект предполагается как коммерческий, то доводить до мало-мальски человеческого вида (проработать UI и интеграцию с типовыми системами до вменяемого состояния) и предлагать на первых порах бесплатно для всех желающих. Набежит тестеров — еще разгонять устанете. Данные для отладки алгоритмов польются рекой.
Ответ написан
@alx49
Здравствуйте, Павел!

А не могли бы вы поделится уже опубликованными статьями? Очень тема у вас интересная!

Спасибо!
Ответ написан
@ezavialov

У Яндекса ксть конкурс интернет-математика. Они там периодически выкладывают части логов поведения пользователей на поисковой выдаче. Например, http://switchdetect.yandex.ru/datasets

Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы