Как кластеризовать пользователей в рекомендательных системах для выявления атаки?

Question

Likapro @Likapro

Как кластеризовать пользователей в рекомендательных системах для выявления атаки?

Добрый день! Интересуюсь вопросом как выявить подозрительные аккаунты с помощью кластеризации пользователей, чтобы их оценки (заниженные или завышенные) не засчитывались в рекомендательных системах.
Достаточно информации как разделить пользователей по их интересам, но не могу найти как понять это реальные люди или это атака (например, кто-то захотел занизить оценку товара своего конкурента, а свою повысить).
Поделитесь своими мыслями или статьями.
Если не понятен вопрос, могу переформулировать.
Спасибо

Вопрос задан более трёх лет назад
108 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Руководитель направления DevOps

5 месяцев

Далее
Слёрм

Kubernetes Мега

6 недель

Далее
Слёрм

Apache Kafka База

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+4 ещё

Средний
Как настроить кластер коммутаторов на mikrotik?
- нет подписчиков
- 28 янв.
- 470 просмотров
1

ответ
Linux

+2 ещё

Простой
Как можно организовать кластерный аналог CRON?
- 1 подписчик
- 18 янв.
- 195 просмотров
5

ответов
Кластеры

+2 ещё

Средний
Всем привет. Какой метод лучше всего использовать для кластеризации и как его реализовать (нужно подсчитать количество и размер кластеров)?
- 1 подписчик
- 18 нояб. 2024
- 69 просмотров
1

ответ
Нейронные сети

+2 ещё

Средний
Как сделать нечёткую кластеризацию текстов?
- 2 подписчика
- более года назад
- 339 просмотров
1

ответ
YouTube

+1 ещё

Простой
Как подчинить алгоритм YouTube?
- 1 подписчик
- более года назад
- 358 просмотров
4

ответа
PostgreSQL

+1 ещё

Средний
Как можно настроить автопереключение потоковой реплики на новый мастер?
- 2 подписчика
- более года назад
- 175 просмотров
0

ответов
Кластеры

+2 ещё

Средний
Кластер непрерывной доступности (Fault Tolerance или Continuous Availability) на Openstack как настроить?
- 2 подписчика
- более двух лет назад
- 115 просмотров
0

ответов
Кластеризация

Средний
Сегментации изображения, термограммы. Какой способ выбрать?
- 1 подписчик
- более двух лет назад
- 69 просмотров
1

ответ
Математика

+1 ещё

Простой
Как считать по модифицированной формуле Жаккара?
- 1 подписчик
- более двух лет назад
- 63 просмотра
1

ответ
Виртуализация

+1 ещё

Простой
Как создать одну виртуальную машину использующую несколько серверов?
- 1 подписчик
- более двух лет назад
- 629 просмотров
2

ответа
Показать ещё Загружается…

Data Scientist

Strikt

До 100 000 ₽

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Руководитель проектов по цифровому развитию клиентов в сфере недвижимости (CSM)

Сбер • Санкт-Петербург

от 200 000 ₽

Answer 1 · 2020-04-16 19:17:07

среднеквадратичное отклонение
верхний и нижний квартили
и т.д.

обычные статистические методы, ну и просто обрезка по нереальным параметрам, навроде роста 2,5 метра, коммента через минуту после публикации часового ролика и проч

Answer 2 · 2020-04-16 20:34:36

Проще всего выявить среднее отношение количества лайков к количеству просмотров по каждому унику.
И сделать допуск ширины в медианном "корридоре" в 50% от всех уникальных пользователей.
Все, оказавшиеся вне этого "корридора" - будут накрутчиками.

Answer 3 · 2020-04-16 20:31:21

Поделитесь своими мыслями или статьями.
Если не понятен вопрос, могу переформулировать.
Да тут вроде как понятливые собрались, так что можно и не переформулировать. Но если хотите - то конечно можете. А пока вы будете переформулировать отвечу кратко, что знаю.
Лично этой задачей не занимаюсь, но знаю людей, которые ей занимаются профессионально, т.е. для серьезных заказчиков. Так вот никто вам в открытую свои результаты не расскажет - как только такая информация становиться открытой - моментально найдутся особо умственно одаренные, которые будут пытаться это защиту обойти. Кому это надо?
А так, анализ проводится обычными методами из области Fraud Detection. Таких методов и инструментов много, книги на этот счет пишут. Но это все "нежное введение" в тему, далекие подступы к реальным кейсам. Ну как в банковских системах все наслышаны о методах ловли мошеннических операций, о которых пишут. Вроде как и вот-она, информация доступная всем - отклонения, поиск аномалий, 3 сигма, пространственные разрывы и пр. - , а как реально это функционирует в реальных банках - увы "know how" и тайна за семью печатями.

Как кластеризовать пользователей в рекомендательных системах для выявления атаки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт