Я нашел страницы на common crawl, где содержатся их базы, но судя по количеству ссылок - это базы, которые они собирают за 1-2 месяца, где можно найти их базу, которая содержит все найденные ссылки/домены? Или это самостоятельно нужно собирать на основе их месячных баз?
Вот, что он говорит:
This crawl archive cannot be comprehensively extracted with most available software. We are currently improving the accessibility of our legacy crawls, including this one, so please check back later!
Не дает скачать (но это только ранних архивов касается, остальные - нормально скачиваются). А мое предположение верное? Я правильно понял, что то, что он выкладывает за месяц (несколько месяцев) - это не весь список? Просто мало как-то доменов, пишет 30-40 млн, но их должно быть гораздо больше. Одних сайтов на wordpress вроде до 800 млн.