@APL61
инженер

Парсинг сайтов по критериям, база сайтов с критериями где найти?

Задача – собрать базу сайтов рунета, СНГ по следующим критериям:
1. Отсутствие SSL на сайте.
2. Отсутствие корпоративной почты (почта с доменом сайта), в контактах на сайте указаны ящики типа XXX@mail.ru xxx@yandex.ru и т.п.
3. Отсутствие какой либо CMS для этого сайта, этот критерий не основной.
  • Вопрос задан
  • 120 просмотров
Пригласить эксперта
Ответы на вопрос 2
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Задача состоит из нескольких частей:
1. Сбор списка доменов и информации и них
2. Анализ страниц сайта

Давайте подробнее:
1. Сбор списка доменов и информации и них


Ну, данной базы не существует в природе. Это можно понять просто из информации о том как работает DNS. Можно, конечно, начать перебирать все доменные имена по порядку, но даже имея бесконечное число proxy с учетом всех возможных комбинаций - это займет вечность, да и эта информация постоянно меняется. Можно пойти другим путем и стать Google. Стоимость того и другого подхода, думаю, можно представить - триллионы долларов

2. Анализ страниц сайта

Есть готовые инструменты, у некоторых, возможно, даже есть API (в противном случае писать мучительные парсеры и их актуализировать + много прокси и все в таком духе). Можно написать свой инструментарий, но над этим вообще люди работают месяцами и постоянно дорабатывают. В принципе, идея базу доменных имен собрать эту информацию уже можно, но время ее процессинга займет еще больше времени ибо dig/whois это одно, а парсинг или api это уже совсем другое

В общем, не советую
Ответ написан
mayton2019
@mayton2019
Bigdata Engineer
Я не согласен с первым критерием

Отсутствие SSL на сайте.


В настоящее время все переходят на http(s) (SSL) протокол. С тотальной сертификацией доменных имен. И поэтому нешифрованные сайты не то что-бы будут отсутствовать а скорее их общее количество будет стремительно уменшьаться.

Поэтому и задача еще и усложняется просто поиском этих дохликов которые не могут сдохнуть по причине технической отсталости.

Вот такие мысли.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы