Доброго дня
В рамках моего кандидатского и исследования занимаюсь обнаружением аномального поведения пользователей (
anomaly detection ) информационных систем путём создания моделей поведения. Сама модель уже есть и на наших toy-problem (небольших искусственно генерированных данных) она показывает неплохой результат обнаружения. Но для полноценного исследования нужна реальные данные, а их нет.
В связи с этим вопрос, хотел-бы кто-то поделится такого типа данными? В ответ могу поделится как результатами исследования так и прислать уже опубликованные статьи о нашем подходе.
В идеале нам нужна статистика поведения большого количества пользователей такого вида:
id — в идеале просто autoincremented value
user_id
sessinon_id
transaction_id
datetime/timestamp (optional)
Где,
user_id — уникальный идентификатор пользователя
sessinon_id — идентификатор сессии работы пользователя в системе (нам важно выделять т.н. пути — наборы идентификаторов транзакций совершённых действий с момента входа в систему и до выхода из неё + важно чтобы последовательность действий в базе также соответствовала последовательности их совершения).
transaction_id — уникальный идентификатор одного из возможных действий в системе, т.е. к примеру получение профиля человека — это один тип транзакций, вне зависимости от того, чей конкретно профиль запрошен. Обновление профиля, уже другой transaction_id…
datetime/timestamp (optional) — Нужен в принципе для обучения моделей данными в правильной последовательности, соответствующей их свершению в реальной жизни.
И вторая таблица
user_id
user_role
Т.е. роль (набор ролей) пользователя в рамках системы. К примеру, секретарь, окулист, учитель математики…
В идеале было-бы также здорово иметь как наборы с заведомо корректными данными, так и с данными в которых присутствует аномальная активность. Для тестирования и кросс-валидации… Сами понимаете, мечтать не вредно.
Если кто-нибудь заинтересовался, буду бесконечно благодарен. Ну и конечно результатами исследования поделюсь