Как парсить сайты с защитой от парсинга?

Question

Leon1010 @Leon1010

Как парсить сайты с защитой от парсинга?

Требуется API, которое может отдать html код страницы (после прохождения защиты с js перенаправлениями), url которой ему послали. Существует сервис Variti который по сути проксирует запросы к сайту, отдавая страницу проверки с генерацией js хеша из параметров браузера и последующим перенаправлением. Пример сайта использующего сервис: bi-bi.ru

Соответственно через curl получить html код реальной страницы не представляется возможным.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту. Но мне нужно обязательно вытащить весь HTML код страницы, не добавляя предварительно url в конструктор сервиса.

Подскажите пожалуйста решение.

Вопрос задан более трёх лет назад
1389 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Leon1010 @Leon1010 Автор вопроса

Я готов платить, но не могу найти сервиса, который работает без визуального конструктора. Мне нужно API отдающее html, согласен покупать пакеты с опред. количеством запросов.

Написано более трёх лет назад
bozuriciyu @bozuriciyu

Pardon Me! Where Do I Find 4giveness?, ты не слышал о детекте хедлесс браузеров, теоретик?) Ну вперед обойти защиту, попробуй, потом доказывай.

Написано более трёх лет назад
АртемЪ @Jump

bozuriciyu,
Никак! Решения (в паблике) нет. Иначе эти сервисы защиты уже не существовали бы.

Решение всегда есть.
Задача отличить человека использующего браузер от бота использующего браузер крайне нетривиальная, и вот ее решить крайне сложно, на грани фантастики.
Все защиты лишь усложняют парсинг.

ты не слышал о детекте хедлесс браузеров
Такое сделать возможно.
Однако во первых это непросто и редко кто использует, а во вторых это элементарно обходится - запуск браузера в обычном режиме.

Есть решения которые детектируют ботов по нехарактерным для пользователя действиям, например переходам напрямую. Это тоже обходится при желании без особых проблем.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
Как подгружать xml с перерисовкой таблицы?
- 2 подписчика
- 22 часа назад
- 85 просмотров
0

ответов
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 22 часа назад
- 58 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 185 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 115 просмотров
2

ответа
Proxy

Средний
Reality stealself+caddy как настроить?
- 1 подписчик
- 12 окт.
- 107 просмотров
1

ответ
JavaScript

Простой
Почему не работает в консоли setTimeout?
- 1 подписчик
- 11 окт.
- 287 просмотров
1

ответ
VPN

+1 ещё

Простой
Почему в списке доступных ip-адресов от RealiTLScanner есть rutube.ru и ok.ru?
- 1 подписчик
- 10 окт.
- 342 просмотра
2

ответа
VPN

+2 ещё

Простой
Как сменить свой ip, но не через proxy и vpn?
- 1 подписчик
- 07 окт.
- 455 просмотров
1

ответ
VPN

+1 ещё

Простой
Сохранить свой IP через proxy подключение?
- 1 подписчик
- 07 окт.
- 179 просмотров
2

ответа
Proxy

Простой
Как называются услуга прокси-сервера со множественными портами\подключениями и ротацией?
- 1 подписчик
- 06 окт.
- 123 просмотра
0

ответов
Показать ещё Загружается…

Fullstack Developer (JS/Node.js)

Wisebits

от 4 000 €

Fullstack разработчик (Laravel + Vue.js/React.js)

Nomadic Soft

от 1 600 до 2 240 $

Full-Stack разработчик PHP/Vue.js

Лига Роботов • Новосибирск

от 150 000 до 200 000 ₽

Answer 1 · 2019-10-16 13:21:18

То что вы называете защитой от парсинга - банальный JS.
Часть данных приходит к вам в виде html, а остальные данные запрашивают JS скрипты в вашем браузере.
Если вы не исполняете скрипты - вы не получаете эти данные.

Гарантированный метод - парсить через браузер.
Запускаете браузер, нужные скрипты исполняются, получаете данные.
Для экономии ресурсов браузер можно запускать в headless режиме - без визуального отображения.

Answer 2 · 2019-10-16 13:04:39

Создаётся экземпляр браузера, в него загружается документ, после подгрузки всех ajax-данных берётся весь DOM, и крути его как хочешь.

Answer 3 · 2019-10-16 13:49:47

Умиляют сладкие теоретики в ответах.

Как парсить сайты с защитой от парсинга?

Никак! Решения (в паблике) нет. Иначе эти сервисы защиты уже не существовали бы.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту

Вот это как раз пример решения в не паблике) Плати бабос (а они в свою очередь поделятся с сервисами защиты)

Как парсить сайты с защитой от парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт