Как парсить все страницы интернет-магазина, кроме карточек товаров?

Question

Konyuh @Konyuh

Парсинг

Как парсить все страницы интернет-магазина, кроме карточек товаров?

Создаю веб-краулера, который автоматически собирает контактную информацию с заданного списка интернет-магазинов. Контакты, как правило, находятся в шапке/подвале сайта или на странице контактной информации. С шапкой/подвалом (главная страница) все понятно, а вот как можно распознать страницу контактов? Нужно как-то переходить по всем страницам сайта, кроме карточек товаров, и через RegExp получать все Email, ссылки на телеграм, соцсети и т. д. Карточек может быть огромнейшее количество, поэтому их нужно как-то отфильтровать. Как это сделать?

Вопрос задан 12 мая
124 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

API

+2 ещё

Простой
Как защитить SPA от парсинга?
- 5 подписчиков
- 22 июл.
- 932 просмотра
8

ответов
Парсинг

Простой
Как вытащить динамически меняющийся XML документ?
- 1 подписчик
- 20 июл.
- 65 просмотров
1

ответ
Парсинг

+2 ещё

Простой
Может ли сервер обнаруживать использование MITM Proxy/Burp Suite?
- 1 подписчик
- 19 июл.
- 63 просмотра
1

ответ
Парсинг

+1 ещё

Простой
Где найти рсс ссылку для парсинга вакансий на сайты на фриланс биржах?
- 1 подписчик
- 13 июл.
- 61 просмотр
0

ответов
Python

+1 ещё

Простой
Как с помощью python авторизоваться через Гугл на сайте?
- 1 подписчик
- 12 июл.
- 100 просмотров
0

ответов
Python

+1 ещё

Простой
Насколько опасно игнорирование SSL сертификации при парсинге?
- 1 подписчик
- 06 июл.
- 140 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как создать антидетект-браузер?
- 6 подписчиков
- 30 июн.
- 2696 просмотров
2

ответа
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- 30 июн.
- 142 просмотра
1

ответ
Python

+1 ещё

Простой
Как получить данные с сайта росреестра?
- 1 подписчик
- 29 июн.
- 154 просмотра
2

ответа
HTML

+2 ещё

Сложный
Парсинг данных со страницы сайта, как сделать?
- 2 подписчика
- 24 июн.
- 293 просмотра
1

ответ
Показать ещё Загружается…

Junior DevOps инженер (офис г. Екатеринбург)

МАЙНИТЕК • Екатеринбург

от 80 000 ₽

Разработчик Мобильных Приложений

Project ink

от 1 000 до 5 000 $

Backend .NET developer ( Middle/Senior)

TravelLine

До 300 000 ₽

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

Сделать логотип в векторе

26 июл. 2024, в 22:02

2000 руб./за проект

Answer 1 · 2024-05-12 13:24:04

А ты глазами как распознаешь страницу с контактами?
По содержимому. Наличие или отсутствие определенного текста более чем достаточно.

Самый универсальный метод даже там где сайты генерируют контент на js и весь интерфейс гуляет туда сюда, а классы именуют случайно, типа как на ozon и кучи других топовых сайтов, только по содержимому и спасаешься (я еще в анализ включаю координаты элемента на экране, чтобы между элементами можно было задавать вопрос - найди все дивы что справа от элемента с текстом блаблабла

p.s. регулярки это прошлыв век, очень мало сайтов позволят себя так просто анализировать.
Обычно сайт парсят как xml/html с помощью любого парсера на твой выбор и язык (например для php я часто пользовался simplehtmldom но часто и штатных xml парсеров хватает

ну а если сайт генерируется динамически на js то мне больше нравится инжектить на страницу свой javascript в полноценном браузере

Как парсить все страницы интернет-магазина, кроме карточек товаров?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт