Задать вопрос
woonem
@woonem

Как скраулерить webarchive?

Не могу создать копию web.archive.org/web/20150815080935/http://wasm.ru/wault и всех вложенных страниц.
Teleport Pro лицензионный копирует только index.htm и пару .js и .css.
Вот вывод HTTrack: WASM.zip
Помогите скраулерить архив WASM.
  • Вопрос задан
  • 801 просмотр
Подписаться 3 Оценить Комментировать
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
1) используй wget с опцией -np (no parent)
будет что-то вроде
H:\WGET\wget64.exe -m -HErkp -np -Dweb.archive.org 
http://web.archive.org/web/20150815080935/http://wasm.ru/wault/ -k -x -P "S:\WASM" -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; QQ)" -o S:\WASM\wasm.log.txt -nv -e robots=off


2)он перезапишет на относительные локальные ссылки,но из-за конструкции /http://wasmможет не работать переход из статьи в индексную - посмотришь лог, и перезапишешь потом во всех заменой этот путь

3) если нужно только html, добавь типы нужных файлоы через -A опцию,
-A htm,html

4) Если что-то не скачает - отменяшь опцию -np и возишься с опцией -I (include directories)

P.S. Телепорт выкинь
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@Andriweb
Напишите на скайп majordonua, я выкачиваю с вебархива, есть большие объёмы. Телепорт не даст скачать т.к. он рассчитан на другую задачу
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы