• Где скачать полную базу commoncrawl?

    @PavelPPa Автор вопроса
    Вот, что он говорит:
    This crawl archive cannot be comprehensively extracted with most available software. We are currently improving the accessibility of our legacy crawls, including this one, so please check back later!
    Не дает скачать (но это только ранних архивов касается, остальные - нормально скачиваются). А мое предположение верное? Я правильно понял, что то, что он выкладывает за месяц (несколько месяцев) - это не весь список? Просто мало как-то доменов, пишет 30-40 млн, но их должно быть гораздо больше. Одних сайтов на wordpress вроде до 800 млн.
    Написано