Задать вопрос

Как сделать Парсинг Амазона используя LXML+REQUESTS и прокси?

Сделал парсинг, но нужно сделать много запросов.
Каждый запрос идёт с меняющим (rotation) proxy ip и user-agent (multithreads)
Page=requests.get(url, headers=header, proxies={'http':'xxx.xxx.xxx.xxx:8000'})


Хотя и до следующего использования того же IP но уже с другим агентом уходит больше минуты получаю уже каптчу страницу, то есть один IP используется только один раз. При использовании модуля GRAB такой проблемы нет, но GRAB падает на multithreads.
Что же использует Grab чтобы использовать также для связки LXML+ REQUESTS?
Пробовал также и session=requests.Session(). Не помогло
  • Вопрос задан
  • 340 просмотров
Подписаться 3 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
Revencu
@Revencu Автор вопроса
так и не работает код при повторном использовании того же IP (получаю каптчу на Амазоне)
session=requests.Session()
session.cookies.clear()
session.keep_alive = False
session.headers = {'Connection':'close', 'User-Agent': agent}                         #agent - random
page=session.get(url, proxies={'http':'http://'+IP}, timeout=(60,60))             # IP - rotation
session.cookies.clear()
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы