• Чем пропарсить несколько миллионов доменов?

    sim3x
    @sim3x
    Однострочник на bash + parallel + wget/curl

    И dns сервер локально поставить
    Ответ написан
    3 комментария
  • Чем пропарсить несколько миллионов доменов?

    Jump
    @Jump
    Системный администратор со стажем.
    Да чем угодно. уж не знаю что там может тормозить.
    Я обычно на питоне делаю, хотя такая элементарная задача решается на любом языке.
    Понятное дело что если хотите очень больших скоростей - желательно делать не в один поток и не с одной машины.

    Простая математика:
    По количеству-
    Допустим средняя страница будет отдаваться за 1секунду - какие-то значительно быстрее, какие-то дольше, но в среднем 1сек.
    В итоге за час 3600доменов, за сутки 86,4тыс доменов - все обойдете за 65дней.
    Надо быстрее? - Запускате в несколько потоков.
    Хотите за сутки - 65 потоков и будет вам за сутки.
    По объему -
    Средний вес веб страницы сейчас около 2мб.
    Если вы будете собирать по одной странице в секунду вам надо быть готовым прокачать 2мегабайта в секунду, т.е минимальная скорость подключения 16мегабит в секунду.
    Если вы будете работать в 65потоков, и собирать 65 страниц в секунду, надо быть готовым прокачивать 130мегабайт в секунду, т.е минимальная скорсоть подключения гигабит в секунду.

    Стабильный гигабит вам дадут только в ДЦ и то не факт, на домашнем тарифе маловероятно такое получить. Поэтому вести парсинг желательно с нескольких мест с хорошим линком, если есть требования по времени.
    Ну и общий объем сохраненных данных будет в среднем около 0,3террабайта.
    Это конечно если с картинками.
    Если тащить чисто текст - все гораздо веселее, раз этак в 50.


    А вообще все зависит от конкретных требований и возможностей - что тащить со страницы, нужна ли гарантия обхода каждой страницы, время за которое нужно делать обход, бюджет на расходы.
    Ответ написан
    Комментировать
  • Как сделать ссылки не кликабельными?

    Decadal
    @Decadal
    foreach ( $the_tags as $tag ){
         $tags[] = $tag->name;
    }


    вы это имели в виду?
    Ответ написан
    2 комментария
  • Как избавиться от ERR_TOO_MANY_REDIRECTS при переносе сайта с HTTP на HTTPS на Wordpress?

    Punkie
    @Punkie
    Была точно такая же проблема у меня.

    Добавьте в wp-config.php в самое начало (после <?php ):

    $_SERVER['HTTPS'] = 'on';

    Плюс пониже после define всяких (до текста "/* Это всё, дальше не редактируем. Успехов! */"):

    define('FORCE_SSL_ADMIN', true);
    define('FORCE_SSL_LOGIN', true);
    if (strpos($_SERVER['HTTP_X_FORWARDED_PROTO'], 'https') !== false)
           $_SERVER['HTTPS']='on';


    Если будут проблемы с путями у картинок, поставьте этот плагин:
    https://wordpress.org/plugins/velvet-blues-update-urls/

    И замените http://ваш_домен на https://ваш_домен с его помощью
    Ответ написан
    14 комментариев