Определение живых пользователей от ботов?

Question

Камил @Lakika

Sicario

Веб-разработка

Определение живых пользователей от ботов?

Подскажите пожалуйста.
Какие следы оставляют браузера на веб сайтах листая страницы?
Стоит задача, написать минимальную защиту от ботов. Понятно что сейчас можно подделать все, но и все же.
Первое что приходит на ум, это IP + Куки (Как минимум должны быть у живого юзера)
Но к чему еще можно зацепится?

Вопрос задан более трёх лет назад
815 просмотров

1 комментарий

Подписаться 8 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Яндекс Практикум

Фулстек-разработчик

16 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 4

7 комментариев

АртемЪ @Jump

Запрос страниц без картинок (почти однозначно бот)
Пользователь на даче.

3, 6, 7 отличные причины для пользователя быстрее свалить с сайта и никогда не заходить туда больше.

Написано более трёх лет назад
Владимир Коротенко @firedragon

АртемЪ,
6 вроде как требование законодательства.
3 не раздражает, особенно если у пользователя нормальный профиль, она просто не появляется
7 наиболее надоедливая на сегодня штука, по какому то недоразумению пихаемая на все сайты, лично я на автомате ее сношу.

Написано более трёх лет назад
wisgest @wisgest

6 вроде как требование законодательства.

Владимир Коротенко, нет, это «заставь дурака молиться…».

Написано более трёх лет назад
batyrmastyr @batyrmastyr

Владимир Коротенко,
3. если у пользователя нормальный профиль - то он не бот по определению. У всех новых пользователей профиль не нормальный.
6. мертворождённое требование европейского законодательства к европейским же сайтам. На остальные сайты ставится только по дурости и чтобы пользователю подосрать.

Написано более трёх лет назад
Владимир Коротенко @firedragon

3. Все зависит от поведения, капча на регистрацию и допустим на первые 50 сообщений, создает проблемы, для массовых регистраторов, плюс если угнали аккаунт, появляется куча спэм сообщений, капча это отслеживает. Поэтому все же стоит ее оставить.

В конце концов вопрос в балансе удобства и защиты

Написано более трёх лет назад
batyrmastyr @batyrmastyr

Владимир Коротенко, на случай угона проверку нужно ставить на число сообщений в N минут / секунд / часов + на наличие html, соотношение кириллицы и латиницы, а не на первые 50 сообщений.
Вы даже не представляете, как бесила эта чёртова рекапча на первые 5 сообщений с "найди автобус" по 2 - 5 раз подряд, протуханием пока пишешь сообщение и опять 3 раза ищи светофоры.

Написано более трёх лет назад
Владимир Коротенко @firedragon

batyrmastyr, Представляю. Как то сидел с билайна, после каждого реконнекта меня любезно гугл просил 2-3 раза угадать.

Альтернатива посадить кого нибудь и в ручном режиме банить.

Написано более трёх лет назад

2 комментария

6 комментариев

Владимир Коротенко @firedragon

Все это уже сделано
https://github.com/samyk/evercookie

А насчет весов полностью согласен

Написано более трёх лет назад
xmoonlight @xmoonlight

Владимир Коротенко, evercookie - совсем не для этого.

Написано более трёх лет назад
Владимир Коротенко @firedragon

xmoonlight, Это просто инструмент, а уж для чего вы используете это ваше дело.
Как и кухонный нож не предназначен для убийства, однако по статистике это самое распространенное орудие преступлений.

Написано более трёх лет назад
xmoonlight @xmoonlight

Владимир Коротенко, в целом, я бы не стал его применять: для юзеров он слишком громоздкий при загрузке страниц.

Написано более трёх лет назад
Владимир Коротенко @firedragon

xmoonlight, Мы же сейчас про антифрод систему говорим?
Удобство пользователя тут дело 10е.
Как пример магазин DNS и сайт Авито просто выкидывают пользователя использующего VPN
Гугл без входа в аккаунт постоянно показывает капчу, после 5-6 раз успокаивается, но на новой виртуалке это раздражает.

Вот этот сайт содержит только явных счетчиков 5 штук.
Причем самый навязчивый яндекс просто безбожно засоряет консоль.

Написано более трёх лет назад
xmoonlight @xmoonlight

Владимир Коротенко, внешние счетчики метрик - это точно не антифрод.
Поведенческий фильтр и проверка IP - ещё что-то похожее...

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

Простой
Какие есть аналоги иностанных web песочниц типа JSFiddle, codepen ...?
- 1 подписчик
- вчера
- 235 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Как реализовать хранение денег пользователей на сайте?
- 2 подписчика
- 15 нояб.
- 462 просмотра
4

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 250 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Почему не работает хостинг Weather API?
- 1 подписчик
- 11 нояб.
- 199 просмотров
0

ответов
Веб-разработка

+1 ещё

Средний
Как запретить отскок сайта webapp telegram?
- 2 подписчика
- 05 нояб.
- 289 просмотров
0

ответов
Веб-разработка

Простой
Какую систему выбрать для документирования и описания структуры и дизайна сайта?
- 3 подписчика
- 03 нояб.
- 432 просмотра
4

ответа
Веб-разработка

Простой
Каким образом создать интерактивный модуль для сайта?
- 1 подписчик
- 28 окт.
- 189 просмотров
1

ответ
Веб-разработка

+1 ещё

Средний
Как корректно реализовывать согласие пользователя на обработку персональных данных, в связи с новыми правками?
- 6 подписчиков
- 03 окт.
- 781 просмотр
3

ответа
Веб-разработка

Простой
На сколько важно использовать услугу «Настройка защищенного соединения» от Timeweb?
- 2 подписчика
- 03 окт.
- 233 просмотра
3

ответа
Веб-разработка

Простой
Как определить от какого агрегатора пришел webhook?
- 1 подписчик
- 20 сент.
- 202 просмотра
1

ответ
Показать ещё Загружается…

Web-разработчик/WordPress программист (Full-stack)

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

Фронтенд разработчик (Frontend developer)

Айдис

от 100 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Для начала нужно определиться - для чего вам это нужно? Чего хотите добиться в итоге?
Боты создают слишком большую нагрузку на сервер? Или хотите защитится от парсинга? Или что-то иное?

Answer 1 · 2019-11-07 03:00:25

Цель любой защиты - сделать ее взлом не выгодным. Самая дешевая защита:
1. Проверка user-agent
2. CSRF
3. Гугло каптча перед важным действием
4. Блокировка на N минут после неудачного входа / важного действия

Простые атаки это отсечет, но не более. Невидимая картинка вас спасет от примитивных curl/wget, не более. WebDriver ко многим защитам на стороне браузера (секреты в localStorage, iframe, ...) не восприимчив.

Те защиты, что я привел - тоже не дают особых гарантий, но они довольно дешевые

Answer 2 · 2019-11-06 22:36:13

1. Запрос страниц без картинок (почти однозначно бот)
2. Время на странице (нужна статистика)
3. Капча на чувствительные места (регистрация и отправка сообщений)
4. Регистрация через соц. сети (почти однозначно не бот)
5. Невидимая кнопка, если перешел сразу бан. (почти однозначно бот)
6. banner gdpr большого размера и не нажатая кнопка. (почти однозначно бот)
7. push notification который не нажали на 2 страницах (почти однозначно бот)

Answer 3 · 2019-11-06 22:30:39

Движения курсора мыши, скролл. Вообще, мне чуйка говорит, что должны в природе существовать js плагины для определения ботов. В крайнем случае, вы можете использовать интеллектуальную рекапчу 3 от Гугла, она как раз возвращает процент вероятности, что посетитель реальный человек, на основе анализа поведения и т. д. При этом работает фоном, не нужно отгадывать никаких картинок, все происходит автоматом.

Answer 4 · 2019-11-07 01:50:00

Но к чему еще можно зацепится?

1. К iframe+canvas+localStorage: выполнился скрипт с инициализацией канваса и локального хранилища через js внутри iframe - не бот с большей степенью вероятности.
2. Корректная строка UserAgent - скорее, не бот.
3. IP-адрес: регион IP-адреса и язык контента сайта - совпадают - скорее, не бот.
4. Более 2-х (3 и более) просмотров страниц подряд "вглубину" с корректым Referer-ом - скорее, не бот.

Вообще, лучший фильтр - это поведенческая статистика с "весами" по каждому критерию (бот/не бот).

Answer 5 · 2019-11-14 08:41:04

Знаете, как показывает практика, от парсинга вы не защититесь ну никак ))
Парсеру достаточно использовать Selenium + FingerPrint + эмуляция действий пользователя (например движение мыши) и все, ваш сайт спарсен.

Определение живых пользователей от ботов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт