Как выявить парсер?

Как можно достоверно и быстро выявить что сайт парсер парсит?
  • Вопрос задан
  • 877 просмотров
Пригласить эксперта
Ответы на вопрос 6
usdglander
@usdglander
Yipee-ki-yay
Была у меня одна история. Нужно было спарсить фотографии с сайта одного крупного. За сайтом следили (то есть админы/программеры не дауны), поэтому обычные get-запросы curl-ом через 100-200 штук блокировались по IP. Дальше привожу нашу борьбу в качестве списка.
1. Блокировка частых запросов - Я выставляю задержку. Скорость существенно падает, а количество запросов возрастает не значительно. Формирую список прокси, завожу их в скрипт и выставляю при достижении Gateway Timeout смену прокси.
2. Блокируют все прокси с которыми я работал (новых не нашёл) - Анализирую имена файлов и выясняю алгоритм их формирования (idшники и названия уже были у меня на руках спарсеные), таким образом исключаю запросы к html и начинаю выкачивать только фотки (у каждой сущности было несколько фотографий. каждый раз разное). Как только приходит 404 - меняю сущность.
3. Продолжаются блокировки по IP, но теперь терпимо - за сессию успеваю выкачивать около 1000 фоток, потом смена IP на роутере и снова в путь.
4. Они снимают ВСЕ блокировки и отдают изображения на каждый запрос (Казалось бы всё хорошо), но через некоторое время на этот IP они начинают отдавать ОЧЕНЬ сильно искаженное изображение (ЧБ + шум + скрученное в спираль).
Анализатор изображения я уже конечно писать не стал... :)
Ответ написан
Kwisatz
@Kwisatz
Больше web-приложений, хороших и разных
1. Зачем?
2. Никак. Если ваш контент кому нибудь нужен то его спарсят. Если начнете блокировать то есть же прокси, эмуляция броузера и прочие вещи.
Ответ написан
alex-1917
@alex-1917
Если ответ помог, отметь решением
Лучшая защита - как известно - нападение, поэтому атакуйте этих злобных буратин кривизной сайта и глючным зависающим сервером, роботы-парсеры с ума сойдут)))
Ну а если серьезно, то это вечная проблема ключ-отмычка, все зависит от пропорции ценность ваших картинок против стоимости затрат на борьбу.
Главное не увлекаться, чтобы борьба с парсерами не стала борьбой ради борьбы (или как там иногда называют - дело принципа))).
А то напоминает разговор типичных горе-бизнесменов, сидящих в закредитованных мерседесах-500, а вместо штанов рваные трусы:
- у тебя какие обороты, Вась?
- у меня 10 лямов в месяц, горя не знаю, Федь!
- и у меня также, кайфую, Вась!
- а ты не слышал, что такое прибыль, Федь? По телику вчера передавали!
- неа, Вась, не слышал! да забей! обороты же!!!
- ну да, Федь!
Ответ написан
@zim32
Можно запускать джаваскрипт $(window).on('mousemove') и смотреть двигает ли пользователь мышкой )
Проблема правда в том что контент уже улетел.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
с fail2ban начни

методы защиты есть и вполне простые

например https прокси не так много и т.п.
Ответ написан
@Verz1Lka
Web scraping expert
Круче distil network пока ничего не придумали
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы