Ответы пользователя по тегу Crawling
  • Как скачать сайт полностью на компьютер?

    nazartertyshny
    @nazartertyshny
    Govnocoder
    wget -r -k -l 7 -p -E -nc -erobots=off --user-agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/5З7.З6 (KHTML, like Gecko) Chrome/60.0.З112.11З Safari/5З7.36" www.bartek.wojtyca.pl

    UPD: 30.09.19

    Модификации :)

    Для одного сайта:
    wget -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" PASTE_HERE_A_LINK_TO_THE_SITE_YOU_WANT_TO_DOWNLOAD

    -m (--mirror) - Включает рекурсию (чуть ли не до бесконечного погружения) и сохраняет списки каталогов
    -l (--level) - Указывает на максимальную глубину погружения рекурсии
    -e (--execute) - Выполнение команды. В данном примере - исключить роботов
    -p (--page-requisites) - Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения HTML-страницы
    -k (--convert-links) - После окончания загрузки (скачивания) все ссылки будут преобразованы, чтобы быть пригодными для локальной работы
    -E (--adjust-extension) - Если файл типа application/xhtml + xml и URL-адрес не заканчивается регуляркой '\.[Hh][Tt][Mm][Ll]?' - в названии локального файла будет дописываться .html
    -U (--user-agent) - Я думаю тут объяснять особо не нужно :)
    --reject-regex - Исключает скачивание файлов, в которых есть часть их значения reject-regex. Почему я это добавил? Потому что я ненавижу скачивать страницы на wordpress. Это долго, очень много файлов и я не люблю wordpress. Тапками не бросаться!
    --no-check-certificate - Не производится проверка сертификата сервера с доступными центрами сертификации

    Для списка сайтов:
    wget -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" -i ~/Desktop/sites.txt -P ~/Desktop/sites/

    -i (--input-file) - Этой опцией Вы указываете, где располагается список сайтов/страниц которые необходимо скачать
    -P (--directory-prefix) - Этой опцией Вы указываете, куда сохранять Ваши сохранённые сайты/страницы/файлы

    Более подробно и без моего корявого перевода с английского можно увидеть кликнув здесь
    Ответ написан