Как скачать файлы с директории сайта, если не знаешь имени файлов?

Question

pcica @pcica

Wget

Как скачать файлы с директории сайта, если не знаешь имени файлов?

Уже все прочитано на тему WGET И HTTrack - не работает.

итак имеем сайт: https://www.inkema.com/images/cms/
если на него заходить " В ЛОБ" - то имеем ошибку 404 - вроде там пусто.

но в нем лежит хранилище pdf-ок, нужные мне ркуоводства.
но попасть на файл можно ТОЛЬКО зная ИМЯ этой PDF-ки.
вот например: ttps://www.inkema.com/images/cms/pr11_en_lr.pdf

ВОПРОС: как скачать ВСЮ директорию сайта по маске *.* ???
или такое вообще в принципе невозможно ?

или ВОПРОС №2: можно ли получить типа DIR этой папки на сайте и уже зная имена файлов качать по отдельности ?

СПАСИБО!!!

p.s: пробовал:
wget -r -l 2 --accept=pdf --no-check-certificate https://inkema.com/images/cms/
не работет - качает ошибку 404
httrack --ext-depth=1 https://inkema.com/images/cms/*.*
httrack --ext-depth=1 https://inkema.com/images/cms/

тоже ничего не качает

Вопрос задан 23 дек. 2024
462 просмотра

4 комментария

Подписаться 2 Средний 4 комментария

pcica @pcica Автор вопроса

Ооо. Вот прям написал то , что я забыл. Да. Это ещё один мой вопрос: поиск Гугл " как-то" умудрился "выцарапать" имена этих файлов. Значит Гугл умеет ?
Вопрос тока - то что даёт Гугл это уже все? Или ещё можно перебирать комбинации имён файлов?

Спасибо!

Написано 23 дек. 2024
SagePtr @SagePtr

Значит, где-то были ссылки на эти файлы, которые гугл проиндексировал

Написано 23 дек. 2024
pcica @pcica Автор вопроса

SagePtr, т е. Это вовсе не значит, что Гугл смог "пробраться" таки в это директорию ? Просто где-то ранее на просторах были ссылки и гугл их подобрал?

Или всё-таки гугл знает что лежит в той загадочной папке: inkema.com/images/CMS/ ?

Написано 23 дек. 2024
SunTechnik @SunTechnik

pcica, просто где-то появлялись ссылки на а эти документы и Google их собрал.
Это не даёт гарантии, что эти ссылки сейчас живые и что не появилось куча других.

Написано 23 дек. 2024

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

6 комментариев

Кот Абсолютный @CityCat4

Проверил - работает. Гугл выдает фигову кучу результатов :) все с меткой PDF. Подписываюсь, чтобы не потерять.

Написано 23 дек. 2024
Saboteur @saboteur_kiev

но это только на те файлы, на которые уже заходили каким-то образом?

Написано 23 дек. 2024
denn @iDx

Saboteur, оператор поиска site: показывает какой адрес/директория проиндексированы гуглом. Подробнее можно почитать тут.

В данном случае полезно почитать про технологию Google Dorks

Написано 23 дек. 2024
Saboteur @saboteur_kiev

Ну гугл не может проиндексировать файлы, на которые нет ссылок/карты сайта

Написано 23 дек. 2024
pcica @pcica Автор вопроса

Спасибо огромное. решение СУПЕР!

вот уже действительно как в том мультике - PDF -ок вывалило столько, что устала рука кликать :)

вот если б кто еще ДОБРЫЙ с линуксом слелал полный листинг файлов из 2ой части ответа - цены бы ему не было.

Ребят! есть у кого Линух ?

Написано 24 дек. 2024
denn @iDx

pcica, ссылки на файлы списком: тык

Написано 25 дек. 2024

Пригласить эксперта

Ответы на вопрос 1

3 комментария

pcica @pcica Автор вопроса

К сожалению с паттерном туго, ибо сайт испанский, логика имён пдфок "испанская" т.е. от балды испаньола давал названия своим мануалам
Увы...

Написано 23 дек. 2024
Михаил Ливач @Mausglov

pcica, а Вы не пробовали обратиться к владельцу сайта и попросить?

Написано 23 дек. 2024
pcica @pcica Автор вопроса

Михаил Ливач, нет. Как говорил "классик" - это не наш метод!

Конечно они не дадут доки. Инкема жадная фирма, она на этом зарабатывает. А тем более... Каким-то
"русским"

Не. Не пойдет.

Написано 24 дек. 2024

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+2 ещё

Простой
Как скопировать сайт с помощью PowerShell на Windows 11?
- 1 подписчик
- 13 февр.
- 1353 просмотра
2

ответа
Windows

+1 ещё

Средний
Не работает Wget на Windows 11?
- 1 подписчик
- 10 янв.
- 546 просмотров
2

ответа
Wget

Простой
Как укоротить путь к файлу при скачивании через wget?
- 1 подписчик
- более года назад
- 114 просмотров
2

ответа
Wget

Простой
Как загружать правильно через wget файлы, у которых названия одинаковые, но регистр разный?
- 1 подписчик
- более года назад
- 195 просмотров
1

ответ
Парсинг

+1 ещё

Средний
Как выкачать все gif с сайта?
- 1 подписчик
- более года назад
- 365 просмотров
2

ответа
Wget

Простой
Можно ли в Wget сохранять файл по имени запроса?
- 1 подписчик
- более года назад
- 29 просмотров
0

ответов
Linux

+1 ещё

Средний
Как выкачать часть сайта через wget?
- 2 подписчика
- более года назад
- 274 просмотра
2

ответа
Wget

Средний
Как совместить в опциях wget -nc и -k?
- 1 подписчик
- более двух лет назад
- 59 просмотров
0

ответов
Wget

Сложный
Как ускорить wget, убрав подозрительные страницы из списка с символами \&quot; но не \&quot;\&quot;?
- 1 подписчик
- более двух лет назад
- 100 просмотров
0

ответов
Показать ещё Загружается…

Big Data / ETL Engineer

Oracul Analytics

от 300 000 до 450 000 ₽

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Ооо. Вот прям написал то , что я забыл. Да. Это ещё один мой вопрос: поиск Гугл " как-то" умудрился "выцарапать" имена этих файлов. Значит Гугл умеет ?
Вопрос тока - то что даёт Гугл это уже все? Или ещё можно перебирать комбинации имён файлов?

Спасибо!
Значит, где-то были ссылки на эти файлы, которые гугл проиндексировал
SagePtr, т е. Это вовсе не значит, что Гугл смог "пробраться" таки в это директорию ? Просто где-то ранее на просторах были ссылки и гугл их подобрал?

Или всё-таки гугл знает что лежит в той загадочной папке: inkema.com/images/CMS/ ?
pcica, просто где-то появлялись ссылки на а эти документы и Google их собрал.
Это не даёт гарантии, что эти ссылки сейчас живые и что не появилось куча других.

Answer 1 · 2024-12-23 10:40:40

Данная директория не скрыта от индексации гуглом. В гугле вбейте следующий запрос:

site:www.inkema.com "/images/cms/" filetype:pdf

отобразит все файлы из директории /images/cms/ с расширением PDF

Утилита googler для Linux поможет выдернуть ссылки с названием файлов в файлик files.json. Синтаксис:

googler "site:www.inkema.com /images/cms/ filetype:pdf" --json > files.json

Answer 2 · 2024-12-23 00:41:06

В общем случае - никак. Если сайт сам ни в каком виде не отдаёт список файлов, то всё, ты никак не можешь знать какие там файлы лежат.

Если есть какой-то общий паттерн в наименованиях файлов - можно их просто перебирать: какие скачаются - такие скачаются.
Если на сайте таки где-то есть каталог - можно распарсить оный.
Если ссылки на эти файлы в принципе где-то в интернете встречаются, то goodle их видел и можно воспользоваться api google-поиска с фильтром inurl:www.inkema.com/images/cms/ и, опять же, получить список.

Как скачать файлы с директории сайта, если не знаешь имени файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт