Как спарсить сайт, который «вечно» не доступен?

Всем привет!

У одной государственной структуры, сайт практически 146% запросы отдают timeout. Даже ночью (надеялся меньше нагрузки). Но иногда работает шустро. Ответ get:
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Content-Length: 34854
Content-Type: text/html; charset=windows-1251
Date: Fri, 02 Jun 2017 04:51:08 GMT
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Pragma: no-cache
Server: Microsoft-IIS/6.0
Set-Cookie: phpbb3_kwgpv_u=1; expires=Sat, 02-Jun-2018 04:51:08 GMT; path=/; HttpOnly
phpbb3_kwgpv_k=; expires=Sat, 02-Jun-2018 04:51:08 GMT; path=/; HttpOnly
X-Powered-By: PHP/5.2.8

Нужно скачать html страницы и некоторые данные они запихнули в .js. Ссылки для скачивания составили. Ошибка в основном:
Content-Length: 866
Content-Type: text/html
Date: Fri, 02 Jun 2017 05:26:42 GMT
Server: Microsoft-IIS/6.0

FastCGI Error
The FastCGI Handler was unable to process the request.

Error Details:

The FastCGI process exceeded configured request timeout
Error Number: 258 (0x80070102).
Error Description: The wait operation timed out.

HTTP Error 500 - Server Error.
Internet Information Services (IIS)

Какой самый лучший способ, чтобы скачать 50000 файлов?
  • Вопрос задан
  • 362 просмотра
Пригласить эксперта
Ответы на вопрос 2
devspec
@devspec
Помогло? Отметь решением
1. Парсить однопоточно, чтобы дополнительно не нагружать сайт.
2. Поставить таймаут повыше.
3. Если страница недоступна - долбить её повторно, пока не скачается.
Долго будет парситься, но алгоритма другого нет.
Ответ написан
@InoMono
Поискать в Архиве Всея Интернета
https://ru.wikipedia.org/wiki/%D0%90%D1%80%D1%85%D...
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы