Контакты
Местоположение
Украина, Полтавская обл., Кременчуг

Достижения

Все достижения (5)

Наибольший вклад в теги

Все теги (63)

Лучшие ответы пользователя

Все ответы (73)
  • Как скачать сайт полностью на компьютер?

    nazar-tertyshnyi
    @nazar-tertyshnyi
    Govnocoder
    wget -r -k -l 7 -p -E -nc -erobots=off --user-agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/5З7.З6 (KHTML, like Gecko) Chrome/60.0.З112.11З Safari/5З7.36" www.bartek.wojtyca.pl

    UPD: 30.09.19

    Модификации :)

    Для одного сайта:
    wget 
        -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate 
        -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 
        site-addr.com

    -m (--mirror) - Включает рекурсию (чуть ли не до бесконечного погружения) и сохраняет списки каталогов
    -l (--level) - Указывает на максимальную глубину погружения рекурсии
    -e (--execute) - Выполнение команды. В данном примере - исключить роботов
    -p (--page-requisites) - Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения HTML-страницы
    -k (--convert-links) - После окончания загрузки (скачивания) все ссылки будут преобразованы, чтобы быть пригодными для локальной работы
    -E (--adjust-extension) - Если файл типа application/xhtml + xml и URL-адрес не заканчивается регуляркой '\.[Hh][Tt][Mm][Ll]?' - в названии локального файла будет дописываться .html
    -U (--user-agent) - Я думаю тут объяснять особо не нужно :)
    --reject-regex - Исключает скачивание файлов, в которых есть часть их значения reject-regex. Почему я это добавил? Потому что я ненавижу скачивать страницы на wordpress. Это долго, очень много файлов и я не люблю wordpress. Тапками не бросаться!
    --no-check-certificate - Не производится проверка сертификата сервера с доступными центрами сертификации

    Для списка сайтов:
    wget 
        -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate 
        -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 
        -i ~/Desktop/sites.txt -P ~/Desktop/sites/

    -i (--input-file) - Этой опцией Вы указываете, где располагается список сайтов/страниц которые необходимо скачать
    -P (--directory-prefix) - Этой опцией Вы указываете, куда сохранять Ваши сохранённые сайты/страницы/файлы

    Более подробно и без моего корявого перевода с английского можно увидеть кликнув здесь

    UPD: 22.06.20

    Бывают такие ситуации, когда изображения (либо CSS и JS файлы) находятся на другом (суб)домене. Для этого также можно добавить ключ -H (--span-hosts), указав этим что можно посещать перечень (суб)доменов. Но главное - указать основной домен (с которого будут стягиваться страницы) первым. В примере это site1.com
    wget 
        -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 
        --span-hosts=site1.com,site2.com,sub.site1.com,assets.site4.com site1.com
    Ответ написан
  • Стоит ли новичку брать курсы от GeekBrains или Скиллбокс?

    nazar-tertyshnyi
    @nazar-tertyshnyi
    Govnocoder
    Новичку стоит брать документацию, книжки и изучать.
    Ответ написан

Лучшие вопросы пользователя

Все вопросы (69)