Какие вы знаете методы обнаружения подозрительной активности пользователя?

Question

Tw1ce @Tw1ce

Какие вы знаете методы обнаружения подозрительной активности пользователя?

Здравствуйте! Заинтересовался в последнее время машинным обучением, в частности задачей обнаружения аномалий, но огромный пласт информации, множество разных алгоритмов и оставляющие желать лучшего знания математики уже просто запутали.

Меня интересуют задачи по обнаружению подозрительных действий пользователя в какой-то системе, основанные на его предыдущих действиях. Хотелось бы услышать конкретные практические рекомендации, в идеале примеры решения любой похожей по смыслу задачи. Как минимум название алгоритма (метода), чаще всего использующегося для подобного.

На правах примера: обнаружение подозрительной активности по изменению времени захода или среднего времени работы пользователя (естественно при условии нахождения закономерности), подозрительная смена IP.

Тут я осмелюсь даже перефразировать вопрос: каким образом вообще реализуется подобное? Может я заблуждаюсь и подобные задачи не требуют машинного обучения? Но если делать все по уму, то слишком много if-else выйдет, ведь не просто тревогу бить когда IP сменился, а исключительно по предыдущей статистике: может ее мало или для данного человека эта норма (каждую неделю меняется), и желательно с возможностью в какой-то момент понять, что человек с этого дня домосед, а значит про предыдущие похождения надо забыть.

Заранее большое спасибо за уделенное время!

Вопрос задан более трёх лет назад
2133 просмотра

3 комментария

Подписаться 7 Оценить 3 комментария

Дмитрий @zmitrok62

Если у Вас есть системное знание системы которую хотите анализировать, то Вы и так должны понимать какие действия могут быть "подозрительными". И мой совет: не надо курить тонны лишней информации если вы не собираетесь писать аналог Касперского или Аваста. Придумывайте свои алгоритмы и подглядывайте в существующие. 100% методов нет, все они быстро устаревают, а многие из них изначально написаны пьяными наркоманами и использовать их на практике смысла нет.

Написано более трёх лет назад
AlikDex @AlikDex

для кул хацкеров устраиваем каконить ханипот. Типа mysite.com/admin
Админка естесно фейковая. Далее пилим каконить роботс.тхт отдачей через скрипт. Люди туда крайне редко смотрят, поэтому фильтруя поисковых роботов можно выявить людей. Если тот пойдет потом тыкаться по всяким админкам (в роботсе естессно закрываем ее через disallow). То такого говнюка можно считать потенциально опасным =)

Как детектить ботов? Задача задач на самом деле.

Написано более трёх лет назад
xmoonlight @xmoonlight

AlikDex: "Как детектить ботов? Задача задач на самом деле. " - только через обмен данными между сайтами.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Skillbox

Профессия Специалист по информационной безопасности

12 месяцев

Далее
Hi-TECH Academy

KL 034.4 Kaspersky Unified Monitoring and Analysis Platform. Administration (KUMA)

1 неделя

Далее

Решения вопроса 1

4 комментария

Tw1ce @Tw1ce Автор вопроса

Отлично, но если перевести немного в более доступную форму: цепочка - набор последовательных действий, правильно понял? "Среднестатистический показатель появления" - именно время, верно?

Чувствуя вашу компетенцию, хотелось бы поднять еще одну тему. Сергей рассказал в комментариях про марковские цепочки, я ознакомился с материалом и родился следующий алгоритм. Представим карту сайта и матрицу, где ij - вероятность перехода пользователя с i-ой страницы на j-ю, составленную на основе его предыдущей статистики. Подходит ли данный метод для обнаружения подозрительных действий основываясь на величине отклонения от ij? При этом я понимаю, что это принципиально отличается от вашего способа, т.к. марковские цепочки не обладают памятью, меня больше интересует вопрос возможности применения, может я чего-то упустил из виду и это не может работать по определению.

Написано более трёх лет назад
xmoonlight @xmoonlight

Tw1ce: я привёл общий случай, который применим везде в любой сфере, не только для веб и/или IT.
Про марковские цепочки - я бы не стал на них опираться, как на эталон, это - узкий частный случай и да: если Вам нужны ТОЛЬКО АНАЛИТИКА переходов - метод подходит, однако в этом случае, Вы потеряете львиную долю аналитики - это анализ данных заголовков запросов к серверу от клиента.

"Среднестатистический показатель появления" - именно время, верно? Да. Среднее время периода определённого запроса на основе предыдущих аналогичных запросов всей системы.

Написано более трёх лет назад
Tw1ce @Tw1ce Автор вопроса

xmoonlight: выражаю огромную благодарность!

Написано более трёх лет назад
Сергей @begemot_sun

Марковские цепи обладают памятью, в общем случае вы можете говорить о системе которая находится в состоянии Si (включающую последние № посещенных страниц), Марковская цепь задает вероятность перехода в Sj из Si.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

2 комментария

4 комментария

Tw1ce @Tw1ce Автор вопроса

Так в тот то и дело, что определить подозрительные метрики невозможно, их либо нет вообще, либо критически мало, что провести какую-то классификацию. Из того что я читал и как я понял материал, именно поэтому эта задача и относится к обучению без учителя. А по поводу самого определения - любое действие, выбивающееся из привычного хода событий. Я пытался решить эту задачу с использованием наивного байесовский классификатора, но по уже определенным причинам просто не смог объяснить классификатору, что такое плохо.

Написано более трёх лет назад
Сергей @begemot_sun

В любом случае, никто кроме человека не сможет определить этот термин. А в чем состоит "привычный ход событий" ? Когда это определите, тогда все станет ясно

Написано более трёх лет назад
Сергей @begemot_sun

Например как вариант -- последовательность действий юзера. Кажое действие это свой тип.
Вы можете составить марковскую цепь таких действий, и соотвественно когда вероятность действия пользователя низка, но он сделал действие - то уже подозрительно.

Это я про метрики. Их может быть куча, достаточно включить фантазию.

Написано более трёх лет назад
Tw1ce @Tw1ce Автор вопроса

Возвращаясь к практике: я строю статический граф, где после каждого действия есть возможный набор других действий и по пользовательской статистике присваиваю вероятность каждому действию или как-то иначе ее высчитываю? что делать дальше с подобной информацией мне понятно, непонятен именно момент получения вероятности.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
WordPress

+1 ещё

Простой
WordPress. Плагин Wordfence Security сообщает, что код подозрительный. Почему ругается плагин?
- 2 подписчика
- 10 дек.
- 143 просмотра
1

ответ
Windows

+1 ещё

Простой
Что за скрипт от Яндекса на новом ноутбуке?
- 5 подписчиков
- 10 дек.
- 998 просмотров
4

ответа
Информационная безопасность

+1 ещё

Простой
Подозрительный процесс crowsd в legacy-системе — что это может быть?
- 4 подписчика
- 10 дек.
- 274 просмотра
2

ответа
Информационная безопасность

Простой
Javascript, подгружаемый с servicepipe.ru, похоже сканирует локалхост. Зачем?
- 2 подписчика
- 25 нояб.
- 305 просмотров
2

ответа
Информационная безопасность

+3 ещё

Простой
Чем опасно держать свой публичный почтовый сервис?
- 3 подписчика
- 20 нояб.
- 890 просмотров
4

ответа
Информационная безопасность

Средний
Как проверяете приватные репозитории?
- 1 подписчик
- 19 нояб.
- 339 просмотров
3

ответа
Информационная безопасность

+1 ещё

Простой
IDE Jetbrains обнаружила троян в пакете chalk, что делать в такой ситуации?
- 2 подписчика
- 05 нояб.
- 428 просмотров
1

ответ
Информационная безопасность

Простой
С чего можно начать самостоятельное обучение белому хакингу?
- 2 подписчика
- 02 нояб.
- 391 просмотр
2

ответа
Информационная безопасность

+1 ещё

Простой
Как защитить Whatsapp?
- 3 подписчика
- 30 окт.
- 523 просмотра
1

ответ
Показать ещё Загружается…

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Если у Вас есть системное знание системы которую хотите анализировать, то Вы и так должны понимать какие действия могут быть "подозрительными". И мой совет: не надо курить тонны лишней информации если вы не собираетесь писать аналог Касперского или Аваста. Придумывайте свои алгоритмы и подглядывайте в существующие. 100% методов нет, все они быстро устаревают, а многие из них изначально написаны пьяными наркоманами и использовать их на практике смысла нет.
для кул хацкеров устраиваем каконить ханипот. Типа mysite.com/admin
Админка естесно фейковая. Далее пилим каконить роботс.тхт отдачей через скрипт. Люди туда крайне редко смотрят, поэтому фильтруя поисковых роботов можно выявить людей. Если тот пойдет потом тыкаться по всяким админкам (в роботсе естессно закрываем ее через disallow). То такого говнюка можно считать потенциально опасным =)

Как детектить ботов? Задача задач на самом деле.
AlikDex: "Как детектить ботов? Задача задач на самом деле. " - только через обмен данными между сайтами.

Answer 1 · 2016-10-10 15:38:20

Изначально - есть набор цепочек контролируемых параметров и среднестатистические показатели появления таких цепочек.

Как только появляется:
1. слишком уникальная цепочка (т.е. имеет различие более чем, в половине параметров)
2. среднестатистический показатель появления одной и той же цепочки отклоняется в любую сторону более, чем на 50% относительно своих предыдущих временных интервалов
3. при анализе сессий - порядок следования пакетов в сессии имеет отклонение схожести более чем на 50%, от всех остальных сессий пользователей.

Тогда - фиксируется alert!

Answer 2 · 2016-10-10 09:58:34

Поздравляю! Вы взялись просто за колоссальной сложности задачу. Крупнейшие корпорации тратят тысячи человеко-часов, годами корпят над этой темой, и при этом количество ложноположительных и ложноотрицательных срабатываний их систем защиты просто раздражающе велико.

Методов тоже уйма. Время захода, работы, отпечатки браузеров, диапазоны IP-адресов - это на поверхности, очень просто и нифига не продуктивно. В конечном итоге оно выливается в то, что клиент где-нить в командировке с IP местного провайдера и выданного на работе бука вынужден бороться с вашей системой. Сейчас копают в других направлениях. Например мышь. Для многих не очевидно, но паттерны движений курсора мыши уникальны для каждого человека. Там ведь не только наведение на элементы интерфейса, т.е. продуктивные движения, еще очень показательны т.н. холостые движения - к примеру, то, как вы крутите курсор, пока ждете загрузку чего-то. Только вот человек не постоянен. Стоит вам научиться выделять человека из прочих по тому, как он работает мышью, в каких ритмах набирает текст и т.п... как он ррраз! и заболел. И его вялое тыканье в элементы интерфейса начисто смажет вам всю картину) А если у него сдохла мышь, и он начинает пользоваться тачпадом?)

К чему это я. Сам буду рад услышать тех, кто в теме, но не рассчитывайте увидеть в ответах что-то действительно стоящее.

Answer 3 · 2016-10-10 10:13:25

В общем случае за каждым пользователем следует закрепить набор метрик, которые идентифицируют его поведение. Сделать саму классификацию не сложно. Сложнее найти такие метрики, которые идентифицируют "подозрительную активность".
И вообще вы не определили этот термин. Для каждого он включает что-то своё.

Answer 4 · 2016-10-10 18:18:52

Создавать свои паттерны параметров исходя из текущей задачи. Основных вопроса два в вашем случае: что \кого именно отслеживаем на предмет аномалий и что именно считаем нормой. Вышеозначенные корпорации конечно имеют лучшие мозги мира в доступе, но лучшие мозги мира обычно начинают с простых вещей и строят методологию исходя из базовых моментов: что следим, зачем следим, что с нашей точки зрения аномалия + сбор стат. данных. Если к примеру вы строите свой сайт и хотите следить за юзерами на манер ВКонтакта (история входов с параметрами браузер+IP) то с этого и начинайте.

Answer 5 · 2016-10-10 10:41:23

Начать надо с того, что определить - что есть "подозрительная активность" и что делать если она обнаружена :) Вот например, Стахановец ее может обнаруживать - так как он ее понимает. На тестовом компе я делаю переименование каталога, содержащего множество подкаталогов - например профиля Thunderbird - и получаю оповещение о подозрительной файловой активности!

Answer 6 · 2016-10-10 14:06:22

В общих чертах, это - обучение без учителя. Когда агент пытается ответить на вопрос, насколько очередной пример похож на примеры из обучающего набора данных. Вот только что и как кодировать - большооой вопрос.

Какие вы знаете методы обнаружения подозрительной активности пользователя?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт