@APL61
инженер

Парсинг сайтов по критериям, база сайтов с критериями где найти?

Задача – собрать базу сайтов рунета, СНГ по следующим критериям:
1. Отсутствие SSL на сайте.
2. Отсутствие корпоративной почты (почта с доменом сайта), в контактах на сайте указаны ящики типа XXX@mail.ru xxx@yandex.ru и т.п.
3. Отсутствие какой либо CMS для этого сайта, этот критерий не основной.
  • Вопрос задан
  • 111 просмотров
Пригласить эксперта
Ответы на вопрос 2
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Задача состоит из нескольких частей:
1. Сбор списка доменов и информации и них
2. Анализ страниц сайта

Давайте подробнее:
1. Сбор списка доменов и информации и них


Ну, данной базы не существует в природе. Это можно понять просто из информации о том как работает DNS. Можно, конечно, начать перебирать все доменные имена по порядку, но даже имея бесконечное число proxy с учетом всех возможных комбинаций - это займет вечность, да и эта информация постоянно меняется. Можно пойти другим путем и стать Google. Стоимость того и другого подхода, думаю, можно представить - триллионы долларов

2. Анализ страниц сайта

Есть готовые инструменты, у некоторых, возможно, даже есть API (в противном случае писать мучительные парсеры и их актуализировать + много прокси и все в таком духе). Можно написать свой инструментарий, но над этим вообще люди работают месяцами и постоянно дорабатывают. В принципе, идея базу доменных имен собрать эту информацию уже можно, но время ее процессинга займет еще больше времени ибо dig/whois это одно, а парсинг или api это уже совсем другое

В общем, не советую
Ответ написан
mayton2019
@mayton2019
Bigdata Engineer
Я не согласен с первым критерием

Отсутствие SSL на сайте.


В настоящее время все переходят на http(s) (SSL) протокол. С тотальной сертификацией доменных имен. И поэтому нешифрованные сайты не то что-бы будут отсутствовать а скорее их общее количество будет стремительно уменшьаться.

Поэтому и задача еще и усложняется просто поиском этих дохликов которые не могут сдохнуть по причине технической отсталости.

Вот такие мысли.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы