wget -r -k -l 7 -p -E -nc -erobots=off --user-agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/5З7.З6 (KHTML, like Gecko) Chrome/60.0.З112.11З Safari/5З7.36"
www.bartek.wojtyca.pl
UPD: 30.09.19
Модификации :)
Для одного сайта:
wget
-m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate
-U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
site-addr.com
-m (--mirror) - Включает рекурсию (чуть ли не до бесконечного погружения) и сохраняет списки каталогов
-l (--level) - Указывает на максимальную глубину погружения рекурсии
-e (--execute) - Выполнение команды. В данном примере - исключить роботов
-p (--page-requisites) - Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения HTML-страницы
-k (--convert-links) - После окончания загрузки (скачивания) все ссылки будут преобразованы, чтобы быть пригодными для локальной работы
-E (--adjust-extension) - Если файл типа application/xhtml + xml и URL-адрес не заканчивается регуляркой '\.[Hh][Tt][Mm][Ll]?' - в названии локального файла будет дописываться .html
-U (--user-agent) - Я думаю тут объяснять особо не нужно :)
--reject-regex - Исключает скачивание файлов, в которых есть часть их значения reject-regex. Почему я это добавил? Потому что я ненавижу скачивать страницы на wordpress. Это долго, очень много файлов и я не люблю wordpress. Тапками не бросаться!
--no-check-certificate - Не производится проверка сертификата сервера с доступными центрами сертификации
Для списка сайтов:
wget
-m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate
-U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
-i ~/Desktop/sites.txt -P ~/Desktop/sites/
-i (--input-file) - Этой опцией Вы указываете, где располагается список сайтов/страниц которые необходимо скачать
-P (--directory-prefix) - Этой опцией Вы указываете, куда сохранять Ваши сохранённые сайты/страницы/файлы
Более подробно и без моего корявого перевода с английского можно увидеть кликнув
здесь
UPD: 22.06.20
Бывают такие ситуации, когда изображения (либо CSS и JS файлы) находятся на другом (суб)домене. Для этого также можно добавить ключ -H (--span-hosts), указав этим что можно посещать перечень (суб)доменов.
Но главное - указать основной домен (с которого будут стягиваться страницы) первым. В примере это site1.com
wget
-m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
--span-hosts=site1.com,site2.com,sub.site1.com,assets.site4.com site1.com