Задать вопрос

Как сделать Парсинг Амазона используя LXML+REQUESTS и прокси?

Сделал парсинг, но нужно сделать много запросов.
Каждый запрос идёт с меняющим (rotation) proxy ip и user-agent (multithreads)
Page=requests.get(url, headers=header, proxies={'http':'xxx.xxx.xxx.xxx:8000'})


Хотя и до следующего использования того же IP но уже с другим агентом уходит больше минуты получаю уже каптчу страницу, то есть один IP используется только один раз. При использовании модуля GRAB такой проблемы нет, но GRAB падает на multithreads.
Что же использует Grab чтобы использовать также для связки LXML+ REQUESTS?
Пробовал также и session=requests.Session(). Не помогло
  • Вопрос задан
  • 343 просмотра
Подписаться 3 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillbox
    Python-разработчик
    10 месяцев
    Далее
  • Нетология
    Fullstack-разработчик на Python + нейросети
    20 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 2
Revencu
@Revencu Автор вопроса
так и не работает код при повторном использовании того же IP (получаю каптчу на Амазоне)
session=requests.Session()
session.cookies.clear()
session.keep_alive = False
session.headers = {'Connection':'close', 'User-Agent': agent}                         #agent - random
page=session.get(url, proxies={'http':'http://'+IP}, timeout=(60,60))             # IP - rotation
session.cookies.clear()
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы