Суть: есть адрес сайта, на которым есть несколько pdf документов (нет названий, только *.pdf). Они доступны для всех пользователей (без авторизации).
Нужно их скачать, т.к. их много, а "ручками" очень долго нужно будет лазить по сайту.
Со скриптами я знаком, но понимаю, что ведь "если бы я был вредителем", то мог бы сожрать кучу трафика, поставив скачивание файла на цикл. В общем могу ли я это сделать (как) и в чем могут быть проблемы, если таких сайтов несколько?
Если сайт хорошо проиндексирован в Яндексе, можете попробовать "Расширенный поиск" по сайту среди pdf документов - https://yandex.ru/search/?text=&lr=5&site=site.ru&...
Если повезет - получите ссылки на все файлы.
Точнее можно сказать увидев сайт, возможно на нем pdf лежат в одном каталоге с открытым индексом.
Вообще, суть именно в скрипте, потому что потом нужно будет обработать (около) еще 300+ сайтов.
И 2 проблема, сейчас понял - скачивание доступно-то для "всех", но из-за куки. А получаеся если брать скрипт, то он должен сначала получить куки?
Тут либо, конечно, ручками в итоге придется, либо скрипт. Исходные данные - это тупо адрес (корень сайта, получается). Вот и хочу понять, на сколько реалено уйти от "ручек".