Задать вопрос
@pcica

Как скачать файлы с директории сайта, если не знаешь имени файлов?

Уже все прочитано на тему WGET И HTTrack - не работает.

итак имеем сайт: https://www.inkema.com/images/cms/
если на него заходить " В ЛОБ" - то имеем ошибку 404 - вроде там пусто.

но в нем лежит хранилище pdf-ок, нужные мне ркуоводства.
но попасть на файл можно ТОЛЬКО зная ИМЯ этой PDF-ки.
вот например: ttps://www.inkema.com/images/cms/pr11_en_lr.pdf

ВОПРОС: как скачать ВСЮ директорию сайта по маске *.* ???
или такое вообще в принципе невозможно ?

или ВОПРОС №2: можно ли получить типа DIR этой папки на сайте и уже зная имена файлов качать по отдельности ?

СПАСИБО!!!

p.s: пробовал:
wget -r -l 2 --accept=pdf --no-check-certificate https://inkema.com/images/cms/
не работет - качает ошибку 404
httrack --ext-depth=1 https://inkema.com/images/cms/*.*
httrack --ext-depth=1 https://inkema.com/images/cms/

тоже ничего не качает
  • Вопрос задан
  • 283 просмотра
Подписаться 2 Средний 4 комментария
Ответ пользователя Aetae К ответам на вопрос (2)
Aetae
@Aetae
Тлен
В общем случае - никак. Если сайт сам ни в каком виде не отдаёт список файлов, то всё, ты никак не можешь знать какие там файлы лежат.

Если есть какой-то общий паттерн в наименованиях файлов - можно их просто перебирать: какие скачаются - такие скачаются.
Если на сайте таки где-то есть каталог - можно распарсить оный.
Если ссылки на эти файлы в принципе где-то в интернете встречаются, то goodle их видел и можно воспользоваться api google-поиска с фильтром inurl:www.inkema.com/images/cms/ и, опять же, получить список.
Ответ написан