При парсинге сайта в некоторых ссылках выходить ошибка 404 и его не парсить?
Здравствуйте. Написал парсер на java selenium.
Для парсина онлайн магазина. При парсинге страницы,где по логике должен перейти по 23 ссылкам, у некоторых ссылок выходить ошибка 404. И парсинг не парсить эти ссылки.Но при открытия этих ссылок через браузер эти ссылки открываются и все работает.
Можете сказать в чем может быть проблема? И как его решить?
Вполне возможно срабатывает защита от парсинга. Для проверки повторите парсинг одной и той же страницы 10 раз подряд, с проверкой всех 23 ссылок. Если все 10 повторов буду недоступны одни и те же ссылки - значит на этих ссылках срабатывает защита по какому-то другому принципу, неправильные заголовки например...
Почитайте справку Гугла про софт-404. Очевидно, что сервер отдаёт роботу не совсем то, что отдаст нормальному живому человеку. Когда вы в браузере получаете нормальную страницу, робот может получить обломок.
Если же речь о реальных 404 – то и здесь стоит оценить системные ресурсы и настройки парсинга. Вероятно, сервер просто не вывозит нагрузки.