@zyusifov11

Как не парсить страницы 404 которые заменены сайтом?

как пропускать страницы сайта которые выдают ошибку 404 но заменены сайтом.

if html.status_code == 200:

не помогает так как фактически страница есть но контент заполнен надписями что страница не найдена.5fc21e0dc057f434543449.png
  • Вопрос задан
  • 84 просмотра
Пригласить эксперта
Ответы на вопрос 1
samodum
@samodum
Какой вопрос - такой и ответ
Если status code 200, а не 404, то только путём анализа контента на странице. Либо по размеру страницы с содержимым 404-й. Больше никак.
Я бы за такое руки оторвал бэкенду.

В общем случае, если пришло 200, то страницу придётся скачивать в любом случае. 404 и все остальные коды созданы для того, чтобы принимать решение, стоит ли обрабатывать контент. Если прилетело 200, то сервер жопой отвечает на пацана, что контент валидный, скачивай братуха. И вот он тебе подсовывает подлянку - контент с содержимым, что содержимого страницы нет.
Тогда можно запомнить размер бракованной страницы в байтах и впоследствии, принимая 200-й ответ, смотреть на размер страницы. Если он примерно в пределах бракованной страницы, то не обрабатывать его, идти дальше. Размер может немного меняться из-за динамически подсасываемых данных (урлы скриптов могут меняться, ссылки на баннеры и пр., но незначительно). И вот мы пишем очередные костыли на ровном месте по вине жопоруких бэкендеров
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы