Задача состоит из нескольких частей:
1. Сбор списка доменов и информации и них
2. Анализ страниц сайта
Давайте подробнее:
1. Сбор списка доменов и информации и них
Ну, данной базы не существует в природе. Это можно понять просто из информации о том как работает DNS. Можно, конечно, начать перебирать все доменные имена по порядку, но даже имея бесконечное число proxy с учетом всех возможных комбинаций - это займет вечность, да и эта информация постоянно меняется. Можно пойти другим путем и стать Google. Стоимость того и другого подхода, думаю, можно представить - триллионы долларов
2. Анализ страниц сайта
Есть готовые инструменты, у некоторых, возможно, даже есть API (в противном случае писать мучительные парсеры и их актуализировать + много прокси и все в таком духе). Можно написать свой инструментарий, но над этим вообще люди работают месяцами и постоянно дорабатывают. В принципе, идея базу доменных имен собрать эту информацию уже можно, но время ее процессинга займет еще больше времени ибо dig/whois это одно, а парсинг или api это уже совсем другое
В общем, не советую