[wget] Как полностью скачать сайт?

Question

Andrew9205 @Andrew9205

Linux
Wget

[wget] Как полностью скачать сайт?

Всем привет,
пытаюсь wget'ом скачать один сайт, который загружает все ресурсы (img, css, js) со своего CDN домена.
Использовал множество ключей, но в итоге он качает только index или тысячи мусорных файлов

P.s. Использую wget на линукс

Вопрос задан более трёх лет назад
1152 просмотра

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

6 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

pfg21 @pfg21

без разницы в каком виде сайт хранится на сервере.
пользователю он отдается как набор html страниц.
их и сохраняем.
понятно что интерактивный сайт идеально не кскопируешь.
но к примеру сделать архивчик какого сайта/форума с техническим наполнением весьма удобно.

Написано более трёх лет назад
Кот Абсолютный @CityCat4

pfg21, С техническим - может быть. Там, где картинки динамически появляются по мере прокрутки вниз - как-то не знаю... (Да, я потом присобачился - раз прокручиваешь до конца, а потом выгребаешь все по прямым ссылкам... - правда не так давно сайт переделали :) )

Написано более трёх лет назад
pfg21 @pfg21

CityCat4, технические сайты обычно не мудрят с медиапереруженностью. у них и так имеется хороший поток пользователей.
а перегруженные суперинтерактивные сайты обычно гонят туфту.
надеюсь так и будет продолжатся... :)

Написано более трёх лет назад
Saboteur @saboteur_kiev Куратор тега Linux

pfg21, Ну так вопрос топикстартера дочитайте - он ругается, что у него ТЫСЯЧИ мусорных файлов.
Это как раз и похоже на различные json/xml для ajax запросы у нормального современного сайта.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Не могу подключиться к серверу Linux Ubuntu по SSH — как исправить?
- 2 подписчика
- 23 окт.
- 639 просмотров
5

ответов
Linux

+2 ещё

Средний
Туннель Wireguard — всё?
- 2 подписчика
- 21 окт.
- 8115 просмотров
3

ответа
Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 319 просмотров
4

ответа
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 129 просмотров
1

ответ
Linux

Средний
Какой Linux поставить в виртуалку, чтобы поднять на нём OpenVPN клиент и 3proxy сервер для локального использования?
- 4 подписчика
- 15 окт.
- 534 просмотра
4

ответа
Linux

Простой
Как запустить две копии программы в Linux?
- 3 подписчика
- 14 окт.
- 531 просмотр
4

ответа
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 127 просмотров
0

ответов
Linux

+2 ещё

Средний
Существует ли готовое решение или проект для организации Linux-шлюза с маршрутизацией, VPN и DPI-обходом?
- 6 подписчиков
- 13 окт.
- 1516 просмотров
2

ответа
Linux

+1 ещё

Средний
Не вижу трафика клиентов и их онлайн в панели 3x-ui, что можно сделать?
- 2 подписчика
- 13 окт.
- 818 просмотров
2

ответа
Linux

+1 ещё

Простой
Как запретить удаление папки в Linux?
- 1 подписчик
- 13 окт.
- 354 просмотра
3

ответа
Показать ещё Загружается…

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Почему вы считаете, что wget загружает все ресурсы?
Как вообще можно скачать современный сайт с ajax?

Answer 1 · 2019-07-10 05:51:54

Кот Абсолютный @CityCat4

Жил да был черный кот за углом...

Возможно, что никак. Нынешние сайты - это не просто десяток страниц с html и пара файлов CSS :)

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2019-07-10 03:32:05

Для wget ключи --recursive --level=3 --referer=http//:Your.Target.Index --save-headers пробовали?
Есть специализированные приблуды кроме wget - гуглить 'web crawler', 'web spider', много их.
Как верно подмечено в комментарии к вопросу, спарсить современный, обфусцированный сайт - целая наука.))

[wget] Как полностью скачать сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт