@fridary

Как обойти блокировку доступа к сайту при парсинге?

На ресурсе ras.arbitr.ru имеется более миллиона документов, мне нужно получить парсингом их содержимое.
Я написал простенький скрипт на python. Поиск на их сайте сделан через отправку POST заголовков. Но стоит мне начать работу скрипта, ресурс меня блокирует и на их сайт я не могу зайти 1 день, пишет "Защита системы по вашему IP от скриптов"

Заголовки отсылаю скопированные с Chrome dev tool.
Пробовал рандомные куки ставить в значения - не помогает.

Как можно обойти блокировку? Буду очень благодарен кто подскажет.

payload = {"GroupByCase":False,"Count":count,"Page":page,"DateFrom":"2000-01-01T00:00:00","DateTo":"2030-01-01T23:59:59","Sides":[],"Judges":[],"Cases":[],"Text":""}
headers = {
	"Accept":"application/json, text/javascript, */*",
	"Accept-Encoding":"gzip, deflate",
	"Accept-Language":"en-US,en;q=0.8,ru;q=0.6",
	"Connection":"keep-alive",
	"Content-Length":"149",
	"Content-Type":"application/json",
	"Cookie":"ASP.NET_SessionId=eob3w5vypepmykpcsixfpxyv; __utmt=1; CUID=49784dc2-a97e-4249-8c61-415fe5f6f081:QNsAJT4ya5WN7jeL7jCECg==; __utma=160997822.296078651.1469210605.1469210605.1469257019.2; __utmb=160997822.4.10.1469257019; __utmc=160997822; __utmz=160997822.1469210605.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)",
	"Host":"ras.arbitr.ru",
	"Origin":"http://ras.arbitr.ru",
	"Referer":"http://ras.arbitr.ru/",
	"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",
	"X-Requested-With":"XMLHttpRequest"
}
r = requests.post("http://ras.arbitr.ru/Ras/Search", data=json.dumps(payload), headers=headers)
  • Вопрос задан
  • 2383 просмотра
Решения вопроса 1
ragimovich
@ragimovich
Ваши загловки ничего не значат - бан идет по IP при превышении количества запросов. Откройте для себя прокси сервера и наслаждайтесь жизнью.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
Rou1997
@Rou1997
Кукисы ни при чем, блокировка по IP, используйте прокси, анонимайзеры и Tor (много SOCKS-прокси).
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы