@zyusifov11

Как не парсить страницы 404 которые заменены сайтом?

как пропускать страницы сайта которые выдают ошибку 404 но заменены сайтом.

if html.status_code == 200:

не помогает так как фактически страница есть но контент заполнен надписями что страница не найдена.5fc21e0dc057f434543449.png
  • Вопрос задан
  • 69 просмотров
Пригласить эксперта
Ответы на вопрос 1
samodum
@samodum
Какой вопрос - такой и ответ
Если status code 200, а не 404, то только путём анализа контента на странице. Либо по размеру страницы с содержимым 404-й. Больше никак.
Я бы за такое руки оторвал бэкенду.

В общем случае, если пришло 200, то страницу придётся скачивать в любом случае. 404 и все остальные коды созданы для того, чтобы принимать решение, стоит ли обрабатывать контент. Если прилетело 200, то сервер жопой отвечает на пацана, что контент валидный, скачивай братуха. И вот он тебе подсовывает подлянку - контент с содержимым, что содержимого страницы нет.
Тогда можно запомнить размер бракованной страницы в байтах и впоследствии, принимая 200-й ответ, смотреть на размер страницы. Если он примерно в пределах бракованной страницы, то не обрабатывать его, идти дальше. Размер может немного меняться из-за динамически подсасываемых данных (урлы скриптов могут меняться, ссылки на баннеры и пр., но незначительно). И вот мы пишем очередные костыли на ровном месте по вине жопоруких бэкендеров
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
16 янв. 2021, в 06:41
500 руб./за проект
16 янв. 2021, в 00:06
3000 руб./за проект
15 янв. 2021, в 23:54
15000 руб./за проект