Парсинг с имитацией действия пользователя?

Question

Михаил Р. @Mike_Ro

Python, JS, WordPress, SEO, Bots, Adversting

Парсинг

Парсинг с имитацией действия пользователя?

Всем привет!
Написал свой первый парсер на php с curl, который относительно успешно парсит Авито.
Если парсер выполняет задачи с моего локального компа, то спустя 10-20 посещений (посещение раз в 5 минут) парсер перестает 'доставать' нужную инфу с Авито, ему просто выдает пустую страницу, но в этот-же момент зайдя руками через браузер (с того-же компа и ip) - все нормально отображается.
Я так понимаю, парсер блочат потому-что он отправляет напрямую get запросы?

Знакомый натолкнул на мыль посмотреть в сторону консольных браузеров и выполнение парсинга через них, например PhantomJS. Я перекопал кучу инфы и здесь встало несколько вопросов:
1. Через PhantomJS я могу спарсить нужную страницу (js кодом) и далее уже с ней взаимодействовать php кодом?
2. PhantomJS хороший вариант для такой задачи? Есть-ли более удобные варианты?
3. Какие есть более интересные способы парсинга сайтов, что-бы имитировать действия пользователя в браузере (название инструментов)?

Заранее спасибо!

Вопрос задан более трёх лет назад
3586 просмотров

5 комментариев

Подписаться 2 Оценить 5 комментариев

Михаил Р. @Mike_Ro Автор вопроса

Александр +: учиться на чем-то нужно, а т.к. он для меня и по задаче подходит - вдвойне эффективно!

Написано более трёх лет назад
Михаил Р. @Mike_Ro Автор вопроса

Александр +: ну Сладно сам схомячил, значит за двоих будет отдуваться... =)

Написано более трёх лет назад
Дмитрий Беляев @bingo347

Александр +: так им и надо вирусо-распространителям этим

Написано более трёх лет назад
Дмитрий Беляев @bingo347

Александр +: попробуйте открыть инструменты разработчика хром на их сайте, они так пекутся за свой говнокод, что сажают вирус в расширения хрома, хотя может что и изменилось сейчас, у меня уже с полгода авито в черном списке

Написано более трёх лет назад
Дмитрий Беляев @bingo347

Александр +: открытие инструментов разработчика можно отследить на js, установить расширение в хром можно с сайта не запрашивая разрешения (у хрома есть даже issue на эту уязвимость, но гуглу до лампочки), авито этим пользуется, устанавливает расширение хрома, которые полностью блокирует как инструменты разработчика, так и управление расширениями...
Вывод у меня один, боятся опозориться своим говнокодом, а он у них действительно такой

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Решения вопроса 2

Комментировать

3 комментария

Alex XYZ @AlexXYZ

От себя добавлю CefSharp: Chrome внутри C#.

Написано более трёх лет назад
Михаил Р. @Mike_Ro Автор вопроса

Если я правильно понял, то можно подключиться из скрипта к WebBrowser > Chrome (например) и далее уже 'как-бы' от имени Chrome выполнять действия на доноре?
Кукки и все атрибуты полноценного браузера тогда будут присутствовать?

Написано более трёх лет назад
rPman @rPman

Да, без особых действий некоторое отличие браузера от дефолтного будет в user agent но его можно подправить. Браузер абсолютно идентичный натуральному, потому как им и является.

т.е. единственный адекватный метод борьбы с подобными механизмами - только статистический и аналитический, т.е. искать паттерны поведения пользователя, работа мышкой, переходы по ссылкам, частота, количество, загружаемая информация и много много гемороя и ложных срабатываний.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 237 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 1007 просмотров
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 376 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 484 просмотра
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 527 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 809 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 814 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 486 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 314 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент. 2025
- 522 просмотра
0

ответов
Показать ещё Загружается…

Специалист по парсингу сайтов

Qwintry

от 1 000 до 3 000 $

Senior backend developer (Node. js)

DataLouna

от 5 000 до 7 500 $

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

Александр +: учиться на чем-то нужно, а т.к. он для меня и по задаче подходит - вдвойне эффективно!
Александр +: ну Сладно сам схомячил, значит за двоих будет отдуваться... =)
Александр +: так им и надо вирусо-распространителям этим
Александр +: попробуйте открыть инструменты разработчика хром на их сайте, они так пекутся за свой говнокод, что сажают вирус в расширения хрома, хотя может что и изменилось сейчас, у меня уже с полгода авито в черном списке
Александр +: открытие инструментов разработчика можно отследить на js, установить расширение в хром можно с сайта не запрашивая разрешения (у хрома есть даже issue на эту уязвимость, но гуглу до лампочки), авито этим пользуется, устанавливает расширение хрома, которые полностью блокирует как инструменты разработчика, так и управление расширениями...
Вывод у меня один, боятся опозориться своим говнокодом, а он у них действительно такой

Answer 1 · 2017-01-12 17:19:58

Фантом нормальный вариант, если хочется работать напрямую через пхп капайте в сторону селентиум драйверов к браузерам . А так на js есть phantom nightmare, изучите, что вам подходит больше.

Answer 2 · 2017-01-12 21:49:59

Когда то достаточно давно мне надоело бодаться с разработчиками сайтов, которые борятся с теми кто пытается получить к их данным автоматически (парсеры, сканеры, эмуляторы кликов), я просто перешел на полноценные браузеры внутри моего же приложения (c# или mono компонент WebBrowser использует firefox или ie в зависимости от платформы, на java это javafx WebEngine, я работал с обоими), к загруженной странице в котором я имею абсолютный доступ.

Можно делать скрины страницы сайта с размерами на порядок больше чем это вообще возможно в классическом браузере (помню скринил гуглмапс картинкой в 30к х 30к пикселов), доступ к элементам страницы удобными getElementById или getElementsByTagName, или по желанию запустить свой javascript на странице, который будет уже работать на странице как ее собственный скрипт,.. итоговое приложение никто не помешает делать например консольным, я запускал mono приложение на полбаксовой VPS-ке, там используется основанный на firefox компонент, очень экономный по ресурсам.

Парсинг с имитацией действия пользователя?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт