Использую библиотеку Cloudscraper(по сути request) и Python для парсинга сайта защищенного Cloudflare. При отладке скрипта на своей локальной машине и под своим ip, всё ок, запросы проходят, код 200, контент отображается. Пришло время подключать прокси, устанавливаю примерно так:
proxy = {"http": f"http://{user}:{passw}@{ip}:{port}", "https": f"http://{user}:{passw}@{ip}:{port}"}
scraper = cloudscraper.create_scraper(proxies=proxy )
Прокси индивидуальные и рабочие,это точно.
Результат: 403 ошибка - доступ запрещен. Убираю прокси - опять всё ок. Была мысль, что не прохожу по гео принципу, чтобы проверить запускаю undetected_chromedriver (selenium с фишками) с этим прокси, сайт открывается и все работает.
Попробовал отправлять запросы на другие сайты под cloudflare, все работает хорошо, работает как нужно.
Напрашивается вывод: конкретно этот сайт видит, что я отправляю запросы из-под прокси (сам сайт, к сожалению, написать не могу).
Прошу натолкнуть на мысль, может кто-то сталкивался с похожим или просто есть идея как обойти эту проблему?
UPDATE: Дальнейшее изучение проблемы показало, что дело всё же не в Cloudflare, а в Amazon. Без использования прокси, в ответе от сервера есть
x-amzn-RequestId,
x-amz-version-id и другие строки с
x-amzn.....
При использовании прокси этих строк нет и конечный api не дает доступ.