@Jackson-01
Начинающий программист java.

При парсинге сайта в некоторых ссылках выходить ошибка 404 и его не парсить?

Здравствуйте. Написал парсер на java selenium.
Для парсина онлайн магазина. При парсинге страницы,где по логике должен перейти по 23 ссылкам, у некоторых ссылок выходить ошибка 404. И парсинг не парсить эти ссылки.Но при открытия этих ссылок через браузер эти ссылки открываются и все работает.

Можете сказать в чем может быть проблема? И как его решить?
  • Вопрос задан
  • 145 просмотров
Пригласить эксперта
Ответы на вопрос 1
vpetrov
@vpetrov
частный SEO-специалист, textarget.ru
Почитайте справку Гугла про софт-404. Очевидно, что сервер отдаёт роботу не совсем то, что отдаст нормальному живому человеку. Когда вы в браузере получаете нормальную страницу, робот может получить обломок.
Если же речь о реальных 404 – то и здесь стоит оценить системные ресурсы и настройки парсинга. Вероятно, сервер просто не вывозит нагрузки.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы