Определение живых пользователей от ботов?

Подскажите пожалуйста.
Какие следы оставляют браузера на веб сайтах листая страницы?
Стоит задача, написать минимальную защиту от ботов. Понятно что сейчас можно подделать все, но и все же.
Первое что приходит на ум, это IP + Куки (Как минимум должны быть у живого юзера)
Но к чему еще можно зацепится?
  • Вопрос задан
  • 814 просмотров
Решения вопроса 1
index0h
@index0h
PHP, Golang. https://github.com/index0h
Цель любой защиты - сделать ее взлом не выгодным. Самая дешевая защита:
1. Проверка user-agent
2. CSRF
3. Гугло каптча перед важным действием
4. Блокировка на N минут после неудачного входа / важного действия

Простые атаки это отсечет, но не более. Невидимая картинка вас спасет от примитивных curl/wget, не более. WebDriver ко многим защитам на стороне браузера (секреты в localStorage, iframe, ...) не восприимчив.

Те защиты, что я привел - тоже не дают особых гарантий, но они довольно дешевые
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
1. Запрос страниц без картинок (почти однозначно бот)
2. Время на странице (нужна статистика)
3. Капча на чувствительные места (регистрация и отправка сообщений)
4. Регистрация через соц. сети (почти однозначно не бот)
5. Невидимая кнопка, если перешел сразу бан. (почти однозначно бот)
6. banner gdpr большого размера и не нажатая кнопка. (почти однозначно бот)
7. push notification который не нажали на 2 страницах (почти однозначно бот)
Ответ написан
zkrvndm
@zkrvndm
Архитектор решений
Движения курсора мыши, скролл. Вообще, мне чуйка говорит, что должны в природе существовать js плагины для определения ботов. В крайнем случае, вы можете использовать интеллектуальную рекапчу 3 от Гугла, она как раз возвращает процент вероятности, что посетитель реальный человек, на основе анализа поведения и т. д. При этом работает фоном, не нужно отгадывать никаких картинок, все происходит автоматом.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Но к чему еще можно зацепится?
1. К iframe+canvas+localStorage: выполнился скрипт с инициализацией канваса и локального хранилища через js внутри iframe - не бот с большей степенью вероятности.
2. Корректная строка UserAgent - скорее, не бот.
3. IP-адрес: регион IP-адреса и язык контента сайта - совпадают - скорее, не бот.
4. Более 2-х (3 и более) просмотров страниц подряд "вглубину" с корректым Referer-ом - скорее, не бот.

Вообще, лучший фильтр - это поведенческая статистика с "весами" по каждому критерию (бот/не бот).
Ответ написан
Знаете, как показывает практика, от парсинга вы не защититесь ну никак ))
Парсеру достаточно использовать Selenium + FingerPrint + эмуляция действий пользователя (например движение мыши) и все, ваш сайт спарсен.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы