@Konyuh

Как парсить все страницы интернет-магазина, кроме карточек товаров?

Создаю веб-краулера, который автоматически собирает контактную информацию с заданного списка интернет-магазинов. Контакты, как правило, находятся в шапке/подвале сайта или на странице контактной информации. С шапкой/подвалом (главная страница) все понятно, а вот как можно распознать страницу контактов? Нужно как-то переходить по всем страницам сайта, кроме карточек товаров, и через RegExp получать все Email, ссылки на телеграм, соцсети и т. д. Карточек может быть огромнейшее количество, поэтому их нужно как-то отфильтровать. Как это сделать?
  • Вопрос задан
  • 130 просмотров
Пригласить эксперта
Ответы на вопрос 1
@rPman
А ты глазами как распознаешь страницу с контактами?
По содержимому. Наличие или отсутствие определенного текста более чем достаточно.

Самый универсальный метод даже там где сайты генерируют контент на js и весь интерфейс гуляет туда сюда, а классы именуют случайно, типа как на ozon и кучи других топовых сайтов, только по содержимому и спасаешься (я еще в анализ включаю координаты элемента на экране, чтобы между элементами можно было задавать вопрос - найди все дивы что справа от элемента с текстом блаблабла

p.s. регулярки это прошлыв век, очень мало сайтов позволят себя так просто анализировать.
Обычно сайт парсят как xml/html с помощью любого парсера на твой выбор и язык (например для php я часто пользовался simplehtmldom но часто и штатных xml парсеров хватает

ну а если сайт генерируется динамически на js то мне больше нравится инжектить на страницу свой javascript в полноценном браузере
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы