Задать вопрос

Определение живых пользователей от ботов?

Подскажите пожалуйста.
Какие следы оставляют браузера на веб сайтах листая страницы?
Стоит задача, написать минимальную защиту от ботов. Понятно что сейчас можно подделать все, но и все же.
Первое что приходит на ум, это IP + Куки (Как минимум должны быть у живого юзера)
Но к чему еще можно зацепится?
  • Вопрос задан
  • 814 просмотров
Подписаться 8 Простой 1 комментарий
Решения вопроса 1
index0h
@index0h
PHP, Golang. https://github.com/index0h
Цель любой защиты - сделать ее взлом не выгодным. Самая дешевая защита:
1. Проверка user-agent
2. CSRF
3. Гугло каптча перед важным действием
4. Блокировка на N минут после неудачного входа / важного действия

Простые атаки это отсечет, но не более. Невидимая картинка вас спасет от примитивных curl/wget, не более. WebDriver ко многим защитам на стороне браузера (секреты в localStorage, iframe, ...) не восприимчив.

Те защиты, что я привел - тоже не дают особых гарантий, но они довольно дешевые
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
1. Запрос страниц без картинок (почти однозначно бот)
2. Время на странице (нужна статистика)
3. Капча на чувствительные места (регистрация и отправка сообщений)
4. Регистрация через соц. сети (почти однозначно не бот)
5. Невидимая кнопка, если перешел сразу бан. (почти однозначно бот)
6. banner gdpr большого размера и не нажатая кнопка. (почти однозначно бот)
7. push notification который не нажали на 2 страницах (почти однозначно бот)
Ответ написан
zkrvndm
@zkrvndm
Архитектор решений
Движения курсора мыши, скролл. Вообще, мне чуйка говорит, что должны в природе существовать js плагины для определения ботов. В крайнем случае, вы можете использовать интеллектуальную рекапчу 3 от Гугла, она как раз возвращает процент вероятности, что посетитель реальный человек, на основе анализа поведения и т. д. При этом работает фоном, не нужно отгадывать никаких картинок, все происходит автоматом.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Но к чему еще можно зацепится?
1. К iframe+canvas+localStorage: выполнился скрипт с инициализацией канваса и локального хранилища через js внутри iframe - не бот с большей степенью вероятности.
2. Корректная строка UserAgent - скорее, не бот.
3. IP-адрес: регион IP-адреса и язык контента сайта - совпадают - скорее, не бот.
4. Более 2-х (3 и более) просмотров страниц подряд "вглубину" с корректым Referer-ом - скорее, не бот.

Вообще, лучший фильтр - это поведенческая статистика с "весами" по каждому критерию (бот/не бот).
Ответ написан
Знаете, как показывает практика, от парсинга вы не защититесь ну никак ))
Парсеру достаточно использовать Selenium + FingerPrint + эмуляция действий пользователя (например движение мыши) и все, ваш сайт спарсен.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы