Как анти-бот системы определяют ботов и как от них защищаться?

Question

Иван Петров @Absm50336

Заметка: написать о себе

Как анти-бот системы определяют ботов и как от них защищаться?

Прочитал я на хабре статью про ботов на питоне и прям стало интересно что сейчас происходит с ботами и защитой против них. Я собрал несколько вопросов может кто поделится информацией?
Если я отправлю гет запрос из консоли то увидит-ли меня сайт где именно я нахожусь?
Если я будут использовать селениум то увидит-ли меня сайт где именно я нахожусь?
Селениум хороший анти-детект браузер? Видел еще playwright он лучше?
Как обычно парсят сайты со сложной защитой? Где продаются такие боты?
Как анти-бот системы определяют ботов наверное есть какие отличительные признаки?

Вопрос задан 13 авг.
437 просмотров

3 комментария

Подписаться 2 Простой 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

6 комментариев

Кот Абсолютный @CityCat4

Интересный ответ. Мне неактуально, но почитал для общего знания - ИБ все таки...

Написано 14 авг.
Василий Банников @vabka

Шикарный ответ, добавить нечего

Написано 14 авг.
Иван Петров @Absm50336 Автор вопроса

Спасибо за подробную статью. Можно ли вычислить конкретного человека по такому отпечатку? И еще я знаю что накручивают поведенческие факторы в сео а потом сайты падают, почему это происходит?

Написано 14 авг.
Михаил Р. @Mike_Ro Куратор тега Python

Иван Петров,

Можно ли вычислить конкретного человека по такому отпечатку?

Некоторые устройства имеют физические дефекты в своем оборудование, которые не мешают им выполнять свои функции, но за которые можно зацепиться. Например, смартфон формирует звуковую амплитудную модуляцию на 1% иным образом, чем остальные аналогичные смартфоны. В теории, если удаться связать человека с конкретным "дефектным" смартфоном, то можно отслеживать его передвижение + его геолокацию (если он ее передает сайтам или грубо по ip адресам) по тем сайтам, где расположен нужный скрипт, например скрипт веб-аналитики...

И еще я знаю что накручивают поведенческие факторы в сео а потом сайты падают, почему это происходит?

"Накрутчик" продает за 500 рублей накрутку ПФ, а заказчик ничего не понимает в этом, но точно понимает, что ему "нужно в топ еще вчера". Заказчик видит заманчивую цену, покупает услугу, получает локальный наплыв ботов на сайт в течение нескольких дней. Дальше я точно не знаю как работает поисковик, но я бы реализовал это так - поисковик видит наплыв "пользователей" и сразу поднимает сайт в топ (у него в этот момент нет ресурсов для вычисления ботов), заказчик видит "рост позиций" и платит накрутчику, все довольны! Затем, проходит пару недель, до анализатора трафика поисковика доходит очередь с данным "интересным" кейсом, он за секунды понимает, что это технически криво настроенные боты, которые ведут себя не характерно, поисковик снимает накрученный ПФ + штраф за манипулирование выдачей.

Написано 14 авг.
Виктор Петров @vpetrov

Михаил Р., я бы добавил ещё один момент: у ПС уже есть представление о том, как выглядит реальная аудитория. Чистая математика. А Яндекс действует просто: всё, что признаётся аномалией - выбрасывается из учёта.
И совсем беда, если кроме этой "аномалии" нету больше ничего. В таком случае на персонализации сайт он будет показывать только тем, кто похож на ботов по профилю, целевая аудитория отсекается.
И вот тогда ни о каких продажах на перспективу говорить уже не стоит. Топы (для ботообразной аудитории) - есть, продаж - нету.

Написано 15 авг.
Михаил Р. @Mike_Ro Куратор тега Python

Виктор Петров,

В таком случае на персонализации сайт он будет показывать только тем, кто похож на ботов по профилю, целевая аудитория отсекается.

Особенно печально, когда боты конверсии крутят, а у заказчика на эти конверсии стоит авто обучение рекламы, либо он руками таргет настраивает на конверсионную "аудиторию".

Написано 15 авг.

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 190 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 129 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 109 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как запретить тг ботам писать мне без их блокировки?
- 1 подписчик
- 08 нояб.
- 436 просмотров
2

ответа
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 245 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 137 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 138 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 251 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 422 просмотра
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Steel_Balls, не помню с какой конкретно статьи я начал но вот кого читал https://habr.com/ru/users/Markus_automation/articles/ https://habr.com/ru/users/grigoriy-melnikov/articles/
Я работал с Playwright, когда парсил товары озона и вб.
За долгое время работы парсера ни разу не забанили.

Answer 1 · 2025-08-13 16:59:27

Если я отправлю гет запрос из консоли то увидит-ли меня сайт где именно я нахожусь?

Напрямую нет, но косвенно можно понять это по ip адресу исходящего запроса.

Если я будут использовать селениум то увидит-ли меня сайт где именно я нахожусь?

Напрямую нет, но косвенно можно понять это по ip адресу + гуглите, что такое утечки dns и как можно определить настоящий ip (минуя прокси) через webrtc.

Селениум хороший анти-детект браузер? Видел еще playwright он лучше?

Selenium - это вообще не антидетект браузер, а лишь программа, которая использует browser-driver для управления браузером. Selenium + undetected-chromedriver простая защита сайта не обнаружит, но вот средненькие антибот системы он уже часто не проходит. Playwright хуже определяется антибот системами.

Как обычно парсят сайты со сложной защитой? Где продаются такие боты?

Пишут свои приватные реализации ботов, которые обычно не продаются, т.к. прибыль от бота сильно выше его разовых продаж, а как только его продадут, так о нем сразу узнают те, кто пишет антибот системы. Либо используют готовые паблик сервисы, которые предоставляют api доступ по подписке с приличной стоимостью, но они не всегда в состояние преодолеть сложную защиту, т.к. этими же сервисами пользуются и те, кто пишут эту самую антибот защиту.

Как анти-бот системы определяют ботов наверное есть какие отличительные признаки?

Профессионально обнаружением ботов занимаются отдельные команды или даже целые компании (Radware, DataDome, Cloudflare, Imperva, Arkose Labs, HUMAN Security, Akamai, hCaptcha итп). Обнаружение сводится к прямому и косвенному методам.

Прямые методы обнаружения:
- Частота запросов и "доверие" (trust) к конкретному ip.
- Проверка заголовков User-Agent. Заголовки от iphone, версия браузера от андройда, а размер дисплея от ноута - надежно!
- Отпечатки рукопожатий TLS/QUIC (векторы JA3/JA4, ALPN, расширенный порядок).
- Проверка выполнения JS.
- Обнаружение признаков использования драйверов браузеров (window.navigator.webdriver, window.document.__webdriver_script_fn итп), открытости DevTools итп.
- Шрифты: через js получают список шрифтов (откуда у вас Ubuntu шрифт на Андройде?), затем выборочно печатают на canvas изображение нужным шрифтом или печатают невидимый шрифт без канваса (применяют css свойство с найденным шрифтом), затем замеряют размеры результата и сверяют его с эталоном.
- Видеокарта: через js рисуют на canvas невидимое изображение с цифрами, спецсимволами и смайликами, затем получают представление изображения в виде кода. Через WebGl можно нарисовать 3D изображение.
- Камера. Как это у вас 3 камеры на samsung a32, если их 4?
- Гироскоп, компас, акселерометр (все это без разрешения работает на андройде). Почему ваш гироскоп не двигается несколько минут подряд, хотя геолокация и ip gsm вышек меняются?
- Анализ аудио рендеринга без разрешения на доступ к аудио (используется только программный аудио стек), где собираются уникальные артефакты обработки звука в зависимости от аппаратного обеспечения. Генерируется аудиосигнал, который обрабатывается через цепочку фильтров и эффектов (динамическая компрессия, частотные изменения, реверберация, изменение частотной или амплитудной модуляции итп).
- Остальная проверка характеристик браузера->устройства: процессор, оператива, дисплей, плагины, часовой пояс, язык. У вас в браузере установлен русский язык, тайм-зона германии, последняя геолокация час назад в италии, а сейчас вы используете ip адрес гондураса, и как ему удается свайпать по НЕ сенсорному дисплею? - чистокровный человек, пропускаем! ;)
= Собираем данные, хэшируем и получают относительно уникальный отпечаток (fingerprint). Уникальность заявляется разная, вплоть до 99%.

Косвенные методы обнаружения:
- Частота запросов и "доверие" (trust) к конкретному ip. Внезапно начался наплыв пользователей, да и еще примерно с одинаковыми характеристиками устройств, при этом хозяин сайта не давал рекламы или как то привлекал пользователей...
- Нестандартный скролл/свайпы/клики у пользователей, ошибки и скорость ввода текста. Внезапно резко наплывшие пользователи стали скролить примерно до одного блока, делали 3 свайпа по 5-6 точек в каждом, хотя до этого все скролили по разному...
- Нестандартная реакция на всплывающие окна. Скролл поверх фиксированного окна - бесценно... ;)
- Нестандартная последовательности посещенных страниц.
- Нестандартное количество проведенного времени на странице.
- Клики по невидимым для живого человека ссылкам, заполнение невидимых полей и отправка формы, когда она не может быть отправлена, в результат не верной js валидации полей - это вообще не стареющая классика.
- Геолокация - только с разрешения, но после разрешения можно получить много косвенных данных для анализа. Какая точная у вас геолокация, всегда до метра, и прыгает всегда по 10 метров, а у других на таком же устройстве все дергается как го*но в проруби...
= Собираем данные, заливаем в нейронку и сравниваем с эталонными пользователями.

Это лишь самые распространенные методы обнаружения, которые используют большинство топовых антибот систем.

Как анти-бот системы определяют ботов и как от них защищаться?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт