Чем веб-парсеры отличаются от реальных пользователей?

Question

Nurdaulet Turar @MyNameIsDice

Парсинг

Чем веб-парсеры отличаются от реальных пользователей?

Хотел спарсить сайт https://mangalib.me/?section=all-updates.
Раньше получалось, сейчас начала выходить ошибка 503. В коде отличий вроде как нету, user-agent я поставил.

Делал это дело через requests, затем попробовал через scrapy, то же самое, при том другие сайты нормально подгружаются, и тут у меня возник вопрос, а чем именно боты выделяются от обычных пользователей и какие можно предпринять меры, чтобы эту разницу замазать?

Вопрос задан более трёх лет назад
343 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- 13 авг.
- 205 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 158 просмотров
0

ответов
Парсинг

Простой
Как или чем скачать закодированные изображения, под заглушкой?
- 1 подписчик
- 11 авг.
- 120 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Есть ли бесплатная возможность получить исторические данные мемкоинов в Solana DEX?
- 1 подписчик
- 30 июл.
- 53 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 225 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- 16 июл.
- 180 просмотров
3

ответа
Парсинг

+1 ещё

Простой
Datacol программа некоректно работает с прокси, вопрос почему?
- 1 подписчик
- 06 июл.
- 99 просмотров
0

ответов
Парсинг

+4 ещё

Простой
Как отловить фрейм с капчей?
- 1 подписчик
- 02 июл.
- 129 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как можно получить такой список ссылок?
- 1 подписчик
- 01 июл.
- 291 просмотр
0

ответов
Python

+1 ещё

Простой
Парсинг с помощью библиотеки requests для Python. Как указать параметр из API если в нем заключается недопустимое значение с точками?
- 1 подписчик
- 16 июн.
- 213 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

Phyton разработчик

Товеко

До 60 000 ₽

Специалист по техническому сопровождению клиентов (2 линия)

FoodSoul • Калининград

от 60 000 ₽

Answer 1 · 2021-04-07 16:38:48

1. Количеством запросов
2. Нехаотичностью запросов
3. Отсутствием рантайма для JS
4. Либо присутсвием рантайма, но отсутствием натурального движения мышью
5. Списком IP из ренжа AWS/DO/Vultr и других хостингов. Пользователи не сидят с таких IP адресов или делают это очень редко (купили и настроили там VPN)
6. Резкими всплесками активности из одного сегмента сети (следствие 1 и 5 пунктов)
7. Капча
8. Что угодно ещё, хоть fingerprintjs

Какая конкретно детектилка ботов стоит — сложно сказать. Либо измерять эмпирически, либо подкупить разработчиков оттуда, либо терморектальный криптоанализ. Но в любом случае, это должно стоить дешевле, чем информация, которую ты пытаешься попарсить

Answer 2 · 2021-04-07 18:29:58

Сергей Горностаев @sergey-gornostaev

Седой и строгий

Как парсить без бана?

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2021-04-07 16:42:18

При прочих равных пользователи в первую очередь отличаются частотой запросов. Парсер сходит по всем линкам за миллисекунды. Если владелец сайта задался целью усложнить парсеру работу, он сможет это сделать, анализируя частоту и типичность запросов.
Ну и ловушку можно предусмотреть - невидимая в UI ссылка, например (а если парсер умный и определяет видимость элемента, то можно и "светло-серое на белом" сделать). Прошёл по ссылке - значит бот (или влезливый мамкин хацкер).
Если пофантазировать, то можно и нейросетку приделать, которая бы, имея модель действий среднестатистического пользователя, определяла бы, насколько этот клиент не похож на человека.

Answer 4 · 2021-04-07 18:44:24

Dimonchik @dimonchik2013

non progredi est regredi

ищи антидетект

универсального способа нет, тебю судя по всему по числу запросов с IP в блеклист внесли

Ответ написан более трёх лет назад

1 комментарий

Чем веб-парсеры отличаются от реальных пользователей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт