@filippovanatoliy
Вот начал погружаться в кодинг)

Почему не могу нормально спарсить контактные данные с сайтов?

Здравствуйте! Суть беды такая. Есть список сайтов (около 3000). Есть утилита, называется она Top Lead Extractor, и я никак не могу заставить ее нормально работать. Необходимо с каждого сайта взять email и номер телефона. Так вот, либо она находит мне 100500 телефонов и email, никак не относящихся к сути, либо не находит вообще. Хотя на сайтах вполне себе на видном месте (чаще всего в футере или в /contacts) все данные есть. Уже отчаялся, и начал руками собирать данные, но на второй сотне нервы уже начали сдавать. Может кто сталкивался с подобными задачами, расскажите, как поступали? Для примера. беру сайт rbc.ru - номер телефона там https://www.rbc.ru/contacts/
Вышеуказанная утилита не находит. Если же я указываю ей лазить по всем ссылкам, то начинается полный треш. Соберет все, только не телефон
  • Вопрос задан
  • 63 просмотра
Решения вопроса 1
kshnkvn
@kshnkvn
yay ✌️ t.me/kshnkvn
Универсальных решений ты не найдешь. Обычно подобное делается примерно так: берешь N сайтов, на основе их пишешь регулярное выражение (1, или несколько), скрипт заходит на все 3000 сайтов, ищет регулярным выражением на главной странице и на /contacts нужную информацю, сайты на которых не находит - в отдельный список. Берешь еще N сайтов из "неудачного списка", пишешь регулярки для них, и так повторяешь процедуру пока не выгребешь все контактные данные. Естественно это все исполнимо, если владеешь в достаточной степени каким-то ЯП, в регулярках ничего сложного нет.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы