Как парсить все страницы интернет-магазина, кроме карточек товаров?

Question

Konyuh @Konyuh

Парсинг

Как парсить все страницы интернет-магазина, кроме карточек товаров?

Создаю веб-краулера, который автоматически собирает контактную информацию с заданного списка интернет-магазинов. Контакты, как правило, находятся в шапке/подвале сайта или на странице контактной информации. С шапкой/подвалом (главная страница) все понятно, а вот как можно распознать страницу контактов? Нужно как-то переходить по всем страницам сайта, кроме карточек товаров, и через RegExp получать все Email, ссылки на телеграм, соцсети и т. д. Карточек может быть огромнейшее количество, поэтому их нужно как-то отфильтровать. Как это сделать?

Вопрос задан более двух лет назад
164 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Konyuh @Konyuh Автор вопроса

По поводу регулярок: можно ведь задать несколько универсальных шаблонов для поиска всех мейлов, ссылок vk.com и t.me и не нужно будет указывать CSS/XPath/JQuery селекторы для каждого сайта по отдельности.
А так понятно, по содержимому значит только и искать

Написано более двух лет назад
rPman @rPman

Что значит 'только'? Любой вариант подойдёт, лишь бы задача решалась

Написано более двух лет назад
Konyuh @Konyuh Автор вопроса

rPman, спасибо!

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 322 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1042 просмотра
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 396 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 498 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 535 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 969 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 835 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 487 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 329 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент. 2025
- 546 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2024-05-12 13:24:04

А ты глазами как распознаешь страницу с контактами?
По содержимому. Наличие или отсутствие определенного текста более чем достаточно.

Самый универсальный метод даже там где сайты генерируют контент на js и весь интерфейс гуляет туда сюда, а классы именуют случайно, типа как на ozon и кучи других топовых сайтов, только по содержимому и спасаешься (я еще в анализ включаю координаты элемента на экране, чтобы между элементами можно было задавать вопрос - найди все дивы что справа от элемента с текстом блаблабла

p.s. регулярки это прошлыв век, очень мало сайтов позволят себя так просто анализировать.
Обычно сайт парсят как xml/html с помощью любого парсера на твой выбор и язык (например для php я часто пользовался simplehtmldom но часто и штатных xml парсеров хватает

ну а если сайт генерируется динамически на js то мне больше нравится инжектить на страницу свой javascript в полноценном браузере

Как парсить все страницы интернет-магазина, кроме карточек товаров?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт