Как обойти защиту Cloudflare при парсинге?

Question

Егор Давыдов @tregor

Senior PHP Backend developer

Как обойти защиту Cloudflare при парсинге?

Приветствую!

Предстоит задача - парсить сайт, который защищён от парсинга средствами Cloudflare.
Т.е. обычный file_get_contents вернёт HTTP ошибку 403.

Немного разобравшись в принципах и устройстве данной защиты пришёл к тому, что Cloudflare проксирует запросы и перед тем, как выдать HTML код, выдаёт некую "невидимую" JavaScript капчу. По сути эта капча - JS код который отрабатывает сразу после загрузки и позволяет загрузить оставшуюся часть страницы.
При обычных запросах само собой JS у нас не отрабатывает.

Пошарив по нету нашёл несколько устаревших решений а-дя Guzzle Cloudflare bypass, однако ни одно из готовых решений запустить не удалось.

Если я правильно понял алгоритм, нам необходимо делать запрос через браузер с отработкой JS. Для этого, в теории, должен подойти консольный headless браузер.

Вопросы:
1. Что такое headless бразуер? Я плохо это понял и ранее с подобным не работал.
2. Как можно организовать многопоточность (Много...вкладочность?) через такой headless браузер?
3. Сработает ли вообще такой подход для обхода защиты Cloudflare?
4. Какие подводные камни ожидать?

P.S.: Сейчас сижу разворачиваю на второй машине Docker c chromium и буду проверять теорию, но дабы не терять время решил сразу закинуть вопрос на хабр. Кто может помочь любым ответом или комментарием - буду безмерно благодарен!

Вопрос задан более трёх лет назад
4190 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

FanatPHP @FanatPHP

Как же вы задолбали, твари
Нормальному человеку уже шагу ступить в интернете нельзя, чтобы капчу не вводить на каждый чих
А им все мало - обязательно ручонки надо протянуть к чужому.
Психология пятилетнего кадавра - чтобы заработать себе копейку, надо засрать весь интернет другим людям, сделать так, чтобы провайдеры еще сильнее закрутили гайки. после нас - хоть потоп.

Написано более трёх лет назад
Егор Давыдов @tregor Автор вопроса

FanatPHP, нихрена не понял, но кажется ты топишь за то что "Если стоит защита - нехер туда лезть"

Написано более трёх лет назад
N @Fernus

Егор Давыдов, Он пишет, что из-за таких "парсеров" и появляются такие "защиты", которые бесят обычных пользователей интернета... :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 339 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
Показать ещё Загружается…

Как же вы задолбали, твари
Нормальному человеку уже шагу ступить в интернете нельзя, чтобы капчу не вводить на каждый чих
А им все мало - обязательно ручонки надо протянуть к чужому.
Психология пятилетнего кадавра - чтобы заработать себе копейку, надо засрать весь интернет другим людям, сделать так, чтобы провайдеры еще сильнее закрутили гайки. после нас - хоть потоп.
FanatPHP, нихрена не понял, но кажется ты топишь за то что "Если стоит защита - нехер туда лезть"
Егор Давыдов, Он пишет, что из-за таких "парсеров" и появляются такие "защиты", которые бесят обычных пользователей интернета... :)

Answer 1 · 2021-03-15 14:45:05

1. Что такое headless бразуер? Я плохо это понял и ранее с подобным не работал.
Selenium, Puppeteer
2. Как можно организовать многопоточность (Много...вкладочность?) через такой headless браузер?
Взависимости от выбранного браузере вбиваете в гугл "многопоточность selenium\puppeteer"
3. Сработает ли вообще такой подход для обхода защиты Cloudflare?
Да, погуглите как обходить защиту.

Answer 2 · 2024-11-12 16:45:41

Мой подход :
запускаю docker из https://github.com/yoori/flare-bypasser
дергаю вызов /get_cookies с нужным url, далее с этими куками дергаю сайт через обычный python requests

Как обойти защиту Cloudflare при парсинге?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт