Задать вопрос

Unix-way CLI-утилита для дампа веб-страниц как это делают браузеры?

Наверное, все знают о возможности браузеров сохранять отдельные страницы локально (ещё называют, «для автономного просмотра»). Они выполняют такое сохранение в довольно удобном формате: html-файл с подправленными путями к ресурсам и папка с ресурсами, от которых он зависит. Вот именно в таком формате я бы хотел иметь возможность скачивать страницы по URL из командной строки. Но дело в том, что поиск такой простой казалось бы утилиты в Интернете ни к чему не привёл.


Надеюсь, что кто-то на Хабре знает о существовании такой программы/скрипта и поделится ссылкой на неё. Написание данной утилиты самостоятельно не представляется какой-то особой сложностью, но не хочется изобретать велосипед без необходимости (я практически уверен, что кто-то что-то подобное уже написал).


P.S. Использование wget и подобных программ немного не то, так как они сохраняют страницы с отличной от необходимой структурой каталогов, ну или я не знаю каких-то их ключей…
  • Вопрос задан
  • 2923 просмотра
Подписаться 7 Оценить Комментировать
Решения вопроса 1
msa
@msa
я практически уверен, что кто-то что-то подобное уже написал

писал давно для себя такую подделку на perl, из внешних зависимостей — Image::ExifTool.

Только скачивает все ресурсы в сам html в виде datauri, кроме файлов больше 1MB (константу можно уменьшить внутри скрипта), их в отдельно в папку рядом.
JS/CSS превращает в инлайновые, чтобы скачивало js нужно запускать с -j.
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
jj_killer
@jj_killer
Есть такой вариант.
Ответ написан
@TyVik
Какое-то время пользовался Khttrack. Проект вроде даже ещё живой.
Ответ написан
@S1ashka
Плохо юзаете гугл
http://www.linuxforums.org/forum/programming-scripting/134394-wget-download-single-page.html
единственное что он качает в ту же папку с страницей, а не в page.html.files
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы