Unix-way CLI-утилита для дампа веб-страниц как это делают браузеры?

Question

xaizek @xaizek

*nix-подобные системы

Unix-way CLI-утилита для дампа веб-страниц как это делают браузеры?

Наверное, все знают о возможности браузеров сохранять отдельные страницы локально (ещё называют, «для автономного просмотра»). Они выполняют такое сохранение в довольно удобном формате: html-файл с подправленными путями к ресурсам и папка с ресурсами, от которых он зависит. Вот именно в таком формате я бы хотел иметь возможность скачивать страницы по URL из командной строки. Но дело в том, что поиск такой простой казалось бы утилиты в Интернете ни к чему не привёл.

Надеюсь, что кто-то на Хабре знает о существовании такой программы/скрипта и поделится ссылкой на неё. Написание данной утилиты самостоятельно не представляется какой-то особой сложностью, но не хочется изобретать велосипед без необходимости (я практически уверен, что кто-то что-то подобное уже написал).

P.S. Использование wget и подобных программ немного не то, так как они сохраняют страницы с отличной от необходимой структурой каталогов, ну или я не знаю каких-то их ключей…

Вопрос задан более трёх лет назад
2964 просмотра

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Хекслет

DevOps-инженер с нуля

14 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

2 комментария

1 комментарий

3 комментария

S1ashka @S1ashka

и да… содержимое css он не парсит.
судя по всему, вгет научился это делать начиная с версии 1.12
у меня 1.11.4 — обновлюсь, попробую

Написано более трёх лет назад
S1ashka @S1ashka

таки да… 1.12 прекрасно спарсил содержимое css и поменял пути
всё также сохраняет всё в папку с самим хтмл — как исправить уже сами ищите =)

Написано более трёх лет назад
xaizek @xaizek Автор вопроса

Спасибо, тоже вариант. Попробую допилить до складывания в папку, а то так даже найти главный файл проблематично.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

*nix-подобные системы

+1 ещё

Простой
Кракозябры при использовании консоли, как решить?
- 3 подписчика
- 19 июл.
- 2646 просмотров
1

ответ
WordPress

+3 ещё

Средний
Как упростить и убыстрить процесс переноса правок с docker на прод?
- 1 подписчик
- 10 апр.
- 291 просмотр
2

ответа
*nix-подобные системы

+2 ещё

Простой
Как решить ошибку no space left on device при CI/CD Gitlab?
- 1 подписчик
- 13 февр.
- 108 просмотров
1

ответ
Системное администрирование

+2 ещё

Простой
Кто отвечает за безопасность VPS?
- 2 подписчика
- 12 дек. 2024
- 646 просмотров
5

ответов
*nix-подобные системы

+1 ещё

Средний
Утилита sed — как добавить строку с табуляцией и бэкслешем после строки, содержащей бэкслеш?
- 1 подписчик
- 24 нояб. 2024
- 167 просмотров
3

ответа
Windows

+3 ещё

Простой
Будет ли PyCharm работать быстрее под *nix, чем под Windows?
- 1 подписчик
- 26 окт. 2024
- 486 просмотров
2

ответа
*nix-подобные системы

+1 ещё

Средний
Не работает текстовый режим в моей ос. Что делать?
- 1 подписчик
- более года назад
- 123 просмотра
0

ответов
Linux

+3 ещё

Простой
Как переключить раскладку клавиатуры в консоли?
- 1 подписчик
- более года назад
- 400 просмотров
1

ответ
Linux

+2 ещё

Простой
Как кастомизировать вывод top или подобной утилиты Linux?
- 1 подписчик
- более года назад
- 163 просмотра
2

ответа
Хранение данных

+3 ещё

Сложный
Как применить изменения на FreeNas?
- 2 подписчика
- более года назад
- 153 просмотра
0

ответов
Показать ещё Загружается…

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Менеджер цифровых проектов

Российский Красный Крест • Москва

от 100 000 ₽

Answer 1 · 2012-05-01 13:47:36

я практически уверен, что кто-то что-то подобное уже написал

писал давно для себя такую подделку на perl, из внешних зависимостей — Image::ExifTool.

Только скачивает все ресурсы в сам html в виде datauri, кроме файлов больше 1MB (константу можно уменьшить внутри скрипта), их в отдельно в папку рядом.
JS/CSS превращает в инлайновые, чтобы скачивало js нужно запускать с -j.

Answer 2 · 2012-05-01 11:25:28

jj_killer @jj_killer

Есть такой вариант.

Ответ написан более трёх лет назад

2 комментария

Answer 3 · 2012-05-01 14:11:53

TyVik @TyVik

Какое-то время пользовался Khttrack. Проект вроде даже ещё живой.

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2012-05-01 20:27:47

Плохо юзаете гугл
http://www.linuxforums.org/forum/programming-scripting/134394-wget-download-single-page.html
единственное что он качает в ту же папку с страницей, а не в page.html.files

Unix-way CLI-утилита для дампа веб-страниц как это делают браузеры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт