Задать вопрос

Как сделать Парсинг Амазона используя LXML+REQUESTS и прокси?

Сделал парсинг, но нужно сделать много запросов.
Каждый запрос идёт с меняющим (rotation) proxy ip и user-agent (multithreads)
Page=requests.get(url, headers=header, proxies={'http':'xxx.xxx.xxx.xxx:8000'})


Хотя и до следующего использования того же IP но уже с другим агентом уходит больше минуты получаю уже каптчу страницу, то есть один IP используется только один раз. При использовании модуля GRAB такой проблемы нет, но GRAB падает на multithreads.
Что же использует Grab чтобы использовать также для связки LXML+ REQUESTS?
Пробовал также и session=requests.Session(). Не помогло
  • Вопрос задан
  • 344 просмотра
Подписаться 3 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Python-разработчик: расширенный курс + нейросети
    12 месяцев
    Далее
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillbox
    Профессия Python-разработчик + ИИ
    10 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 2
Revencu
@Revencu Автор вопроса
так и не работает код при повторном использовании того же IP (получаю каптчу на Амазоне)
session=requests.Session()
session.cookies.clear()
session.keep_alive = False
session.headers = {'Connection':'close', 'User-Agent': agent}                         #agent - random
page=session.get(url, proxies={'http':'http://'+IP}, timeout=(60,60))             # IP - rotation
session.cookies.clear()
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы