Как парсить сайты на Wordpress в определённой доменной зоне?
Мне нужно организовать поиск лидов - владельцев сайтов на Wordpress с доменами в определённой национальной доменной зоне. Буду привлекать специалиста, но не очень понимаю, с чего тут можно начать вообще, чтобы грамотно поставить задачу. Как заставить парсер эффективно искать разные домены в сети? Это должно быть что-то вроде робота, которые будет переходить от сайта к сайту по внутреннем ссылкам, или лучше сделать парсинг поисковой выдачи (но как тогда сделать выдачу максимально разнообразной, ведь у меня нет конкретного поискового запроса?)?
Буду благодарен за опыт и идеи, как лучше делать.
Ежедневно регистрируется/разделегируется 4000 тысячи имен.
Это начало воронки.
Но попробуйте сами найти интересующие Вас контакты на сайте.
Телефона часто нет, емайла тоже, форма обратной связи отключена. У домена не прописано в днс, что он принимает почту.
В общем даже если Вы найдете все сайты на вордпрессе, то не уверен, что сможете выяснить контакты. Да и сами сайт могут быть уровня, я попробывал поставить вордпресс.
Не специализируюсь в этой области, но я бы подошел к задаче примерно так:
Т.к. общей список всех зарегистрированных доменов, в конкретной зоне, я не знаю как получить. Но есть такая идейка
1.1) при помощи nslookup составил бы список всех зарегистрированных доменов в нужной мне зоне включая все спецсимволы. Условно начал бы с aa.ru и закончил бы zzzzzzzzzz-zzzzzzzzzz-zzzzzzzzz.ru сам по себе такой процесс займет некоторое время. Т.е. тупым перебором доменов получил бы список зарегистрированных доменов.
1.2) далее полученный список бы начал парсить на предмет наличия wordpress (админка, мета, структура сайта)
1.3) далее уже этот список проверил на наличие индексации в поисковиках (меня бы не очень интересовали сайты, которые не индексируются т.к. владельцем таких сайтов обычно на все пох и они вряд ли будут готовы принести Вам свои деньги, для того что бы Вы что-то сделали с их сайтом.