Всем привет,
пытаюсь wget'ом скачать один сайт, который загружает все ресурсы (img, css, js) со своего CDN домена.
Использовал множество ключей, но в итоге он качает только index или тысячи мусорных файлов
без разницы в каком виде сайт хранится на сервере.
пользователю он отдается как набор html страниц.
их и сохраняем.
понятно что интерактивный сайт идеально не кскопируешь.
но к примеру сделать архивчик какого сайта/форума с техническим наполнением весьма удобно.
pfg21, С техническим - может быть. Там, где картинки динамически появляются по мере прокрутки вниз - как-то не знаю... (Да, я потом присобачился - раз прокручиваешь до конца, а потом выгребаешь все по прямым ссылкам... - правда не так давно сайт переделали :) )
CityCat4, технические сайты обычно не мудрят с медиапереруженностью. у них и так имеется хороший поток пользователей.
а перегруженные суперинтерактивные сайты обычно гонят туфту.
надеюсь так и будет продолжатся... :)
pfg21, Ну так вопрос топикстартера дочитайте - он ругается, что у него ТЫСЯЧИ мусорных файлов.
Это как раз и похоже на различные json/xml для ajax запросы у нормального современного сайта.
Для wget ключи --recursive --level=3 --referer=http//:Your.Target.Index --save-headers пробовали?
Есть специализированные приблуды кроме wget - гуглить 'web crawler', 'web spider', много их.
Как верно подмечено в комментарии к вопросу, спарсить современный, обфусцированный сайт - целая наука.))