Как скачать документ, книгу с защищенного сайта(только чтение) (Для примера взял книгу с открытым доступом)?

Question

Ailteres1 @Ailteres1

Как скачать документ, книгу с защищенного сайта(только чтение) (Для примера взял книгу с открытым доступом)?

(заранее извиняюсь, что цитирую того человека, просто ту тему я найти не могу, она не высвечивается в браузере, как ранее. Некоторые важные моменты сохранились. Если вдруг автор скажет что-то удались - сразу удалю)

Буду раскрывать все карты - поэтапно, поскольку пока что вообще не разбираюсь коде, но один добрый человек вдохновил меня на поиски решения. Но пришлось на некоторое время забыть. Как видите - по итогу безуспешно, раз пишу сюда (потому что слишком туп). Теперь по существу: "предмет исследования" - книга-пример с открытым доступом из сайта юрайт: https://urait.ru/viewer/grazhdanskoe-pravo-i-proce.... "объект исследования" - возможность скачать ее любым способом (пожалуйста, только не надо предлагать нажать "сохранить как" правой кнопкой мыши несколько сотен раз.)

Так вот, внезапно тот добрый человек кидает результат через день: https://disk.yandex.ru/d/wOHMnfNx-rsxaQ (не в том порядке страницы, но меня удивил сам факт того, что это получилось). Я его стал расспрашивать что да как. Он отвечает, что в отладке (F12) увидел, что каждая страница качается в .svg по ссылке вида */page_N.svg.gz выкачал все страницы конвертировал в pdf и объединил. Далее он пишет что есть куча способов выкачать ссылку, от curl и wget, до python скрипта. Он использовал Download Master "добавить группу закачек" На сайтах, где требуется авторизация, он из консоли разработчика скрипт писал, чтобы ссылки выкачать.

Это все что тогда я успел взять с развития темы. После пост удален скорее всего. Сейчас появился CHAT GPT. Я в шоке с его возможностей, но из-за своего непонимания ситуации даже он мне не помог. Я ему предложил написать код для скачивания всех картинок на примере данных с этого URL: https://urait.ru/library/svobodnyy-dostup/pravo-yu... (уже другая книга, но тоже с открытым доступом) . Он мне скинул этот код:

for (let i = 1; i <= 302; i++) {
    const url = `https://urait.ru/viewer/pravovoe-regulirovanie-sozdaniya-i-ispolzovaniya-informacionnoy-infrastruktury-v-rossiyskoy-federacii-519998/page_${i}.svg.gz`;
    fetch(url)
        .then(res => res.arrayBuffer())
        .then(data => {
            const blob = new Blob([data], { type: 'image/png' });
            const link = document.createElement('a');
            link.href = URL.createObjectURL(blob);
            link.download = `page${i}.png`;
            link.click();
        });
}

В этом коде, вы создаете цикл от 1 до 302, который загружает каждую страницу в формате .svg.gz. Затем, используя fetch API, вы загружаете этот файл в бинарный формат. Наконец, вы создаете ссылку на этот файл и скачиваете его с помощью метода click.

Я: Вставил эту команду, все 302 файла скачались, но формат файлов не поддерживается и они имеют одинаковый размер. Вылезала ошибка в консоли 302 раза: Failed to load resource: the server responded with a status of 404 ()

ЧатЖПТ: Судя по всему, сервер не поддерживает скачивание этих файлов или они просто не существуют. Возможно, эти файлы генерируются динамически при запросе или требуется определенный доступ для их загрузки. Попробуйте найти информацию об этом на сайте или у администратора сайта.

Я: забыл добавить еще ошибку: Не удалось загрузить карту исходного кода с помощью инструментов разработчика: Не удалось загрузить контент для https://static.isu.pub/fe/product-header-frontend/...: Ошибка HTTP. Код статуса 403, net::ERR_HTTP_RESPONSE_CODE_FAILURE...

ЧатЖПТ: Эти ошибки говорят о том, что ваш браузер не может загрузить какие-либо файлы, потому что сервер вернул статус ошибки 404 или 403. Ошибка 404 означает, что сервер не нашел файл, который вы запрашиваете. Ошибка 403 означает, что ваш доступ к файлу запрещен. В этом случае, вам нужно обратиться к владельцу сайта или администратору, чтобы убедиться, что у вас есть необходимые права доступа.

Если у кого-то есть опыт, сообщите, пожалуйста!

Вопрос задан более года назад
9726 просмотров

3 комментария

Подписаться 5 Простой 3 комментария

js-newbie @js-newbie

Ailteres1, скачать оттуда файлы - не проблема. Не нужны ни токены, ни браузер - можно даже тупо любой программой-даунлоадером. Вопрос в том, что дальше автор вопроса будет делать с папкой, содержащей 300 svg-файлов. Наводка: https://qna.habr.com/q/791743#comment_2883970 (см. последний абзац) Я бы попробовал объединить эти 300 файлов в один с помощью cmd (расширение gz непонятно откуда там берётся - это обычные svg-файлы), затем в Notepad++ регулярками почистил, превратив в валидный html, а дальше просто открыл этот html и попытался сохранить как pdf через "Печать" - второе, что приходит в голову (первое - поискать софт, умеющий превращать папку с svg в pdf).

Написано более года назад
Adamos @Adamos

js-newbie, что там искать?
ImageMagick наделает из папки SVG папку PDF, pdfjam соберет ее в один документ.

Написано более года назад
lynikol @lynikol

Получилось то скачать или нет?
Каким способом хотя бы выгрузить в папку файлы?

Написано 07 июл. 2023

Пригласить эксперта

Ответы на вопрос 4

7 комментариев

Ailteres1 @Ailteres1 Автор вопроса

просто интересно, как у него получилось (хоть и в произвольном порядке) скачать все файлы. Может быть, на тот момент такой защиты не было?

Написано более года назад
Ailteres1 @Ailteres1 Автор вопроса

просто та книга была на 1144 страницы. вряд ли он вручную скачивал каждую страницу.

Написано более года назад
Анатолий Куликов @anatoly_kulikov

Или был открытый доступ, или запрос был авторизован

Написано более года назад
Ailteres1 @Ailteres1 Автор вопроса

эхх. странно все это. причем "сохранить как" работает без нареканий. Но это нереально долго выходит по времени..

Написано более года назад
shurshur @shurshur

Ailteres1, скорее всего качал прямо в браузере каким-нибудь расширением, которое воспроизводит этот браузер, в том числе куки.

Написано более года назад
Ailteres1 @Ailteres1 Автор вопроса

shurshur, блин. хоть какую-то наводку дай пожалуйста. Я просто не понял что ты написал))

Написано более года назад
shurshur @shurshur

Ailteres1, есть очень много способов не дать скачать файлы мимо браузера.

Первый и самый простой (но часто применяющийся и довольно эффективный против самых неискушённых пользователей) - проверка Referer. Когда пользователь скачивает файл браузером, тот подставляет в заголовок Referer адрес страницы. При скачивании можно проверить, что Referer указан и содержит родной домен сайта (а то может и что в нём конкретная страница, чтобы нельзя было наивно передавать главную страницу сайта во все запросы), и в случае отсутствия/неверности выдавать 403 вместо файла. Это также помогает от "хотлинков" - прямых ссылок с чужого сайта на свои файлы - что позволяет чужие файлы отдавать с левого сайта под видом своих собственных.

Развитием этого способа является проверка и других заголовков. В частности, User-Agent программ-качалок часто выдаёт их, что позволяет легко закрыть простой доступ для curl и wget (да, им можно переопределить User-Agent, но неискушённый пользователь и тут может не разобраться). Или можно проверять наличие каких-нибудь Accept-Language, который современные браузеры обычно выставляют, а качалки - нет.

Далее, можно использовать куки. Тогда без посещения сайта из браузера куки не будут выставлены. Конечно, их можно протащить в файлокачалку, но тоже не всякий справится. До кучи можно сверять заголовки: если с теми же куками придёт пользователь с другим User-Agent - это уже признак того, что он больше не использует предыдущий браузер.

И наконец можно выдавать пользователю индивидуальные ссылки, привязанные к его IP и/или кукам, возможно имеющие срок жизни и криптографическую подпись. Если ссылки на файлы имеют вид навроде filename.png?expires=1675719469&ip=111.111.111.111&hash=43c2a45a - то это как раз такой случай.

Это основы, на деле владелец сайта может комбинировать эти подходы или придумывать новые хитрости. В частности, он может считать количество файлов, отданных конкретному пользователю, и блокировать его на сутки при превышении некоего естественного лимита.

К любому сайту нужен индивидуальный подход.

Написано более года назад

2 комментария

Ailteres1 @Ailteres1 Автор вопроса

Привет. Спасибо за инфу. Позже расскажу остальным что я сделал. Плюсы у такого подхода в том, что ты не запрашиваешь с сервера загрузку. Ты просто листаешь, как бы читая книжку, а кеш сохраняет. То есть по факту (в рамках взаимодействия с платформой, ты ничего не нарушаешь). Понятное дело, что если ты уже распространяешь книгу, то формально закон нарушаешь. А в этой ситуации, если человек, допустим, хочет книги через архивариус3000 индексировать, никаких вообще нет проблем, ведь со стороны сервера что ты такого сделал? Ты просто читал книгу и все, ничего не запрашивал, кроме 5-10 страниц подряд. Есть и подводные камни: надо после закачки книги очищать кэш, иначе вы просто в книгах запутаетесь. В хроме надо просто очистить историю. Так что если что-то важное в истории поиска, предварительно загрузите эти данные. Если же не очистить историю, потом будете среди "мусора" искать нужные страницы.

Написано более года назад
Ailteres1 @Ailteres1 Автор вопроса

То есть в целом постановка вопроса в теме должна быть иной: как можно сохранить в кеше браузера все сотни страниц книги за пару шагов и несколько секунд, введя волшебный код?

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 44 минуты назад
- 22 просмотра
0

ответов
JavaScript

Средний
Запись в cookie или localStorage только при открытии страницы?
- 1 подписчик
- час назад
- 20 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Правильно ли настроен webpack.config для PWA приложения?
- 1 подписчик
- 2 часа назад
- 17 просмотров
0

ответов
Парсинг

Средний
Как автоматически скачивать файл с сайта регулярно?
- 1 подписчик
- 5 часов назад
- 37 просмотров
2

ответа
JavaScript

+3 ещё

Простой
Почему приходят пустые данные с формы на почту?
- 1 подписчик
- 5 часов назад
- 46 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как при помощи js создать поле дополнительных ингридиентов?
- 1 подписчик
- 16 часов назад
- 71 просмотр
0

ответов
Компьютерные сети

Средний
Не запускается сайт?
- 2 подписчика
- 16 часов назад
- 197 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Как в Next.js закешировать изображение без build?
- 1 подписчик
- 18 часов назад
- 32 просмотра
0

ответов
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 18 часов назад
- 73 просмотра
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 21 час назад
- 57 просмотров
1

ответ
Показать ещё Загружается…

JavaScript разработчик

SummerWeb • Ярославль

от 100 000 до 140 000 ₽

JavaScript разработчик

вАйТи

от 5 000 до 25 000 ₽

Middle JavaScript Developer

AppsTrain.io

от 80 000 до 180 000 ₽

Провести ряд улучшений сайта на Тильде по видео-тз

26 апр. 2024, в 16:20

4000 руб./за проект

Написать приложение калькулятор заказа материла ios + android (опция)

26 апр. 2024, в 15:30

100000 руб./за проект

Поддержка сервиса по рассылкам

26 апр. 2024, в 15:12

30000 руб./за проект

Ailteres1, скачать оттуда файлы - не проблема. Не нужны ни токены, ни браузер - можно даже тупо любой программой-даунлоадером. Вопрос в том, что дальше автор вопроса будет делать с папкой, содержащей 300 svg-файлов. Наводка: https://qna.habr.com/q/791743#comment_2883970 (см. последний абзац) Я бы попробовал объединить эти 300 файлов в один с помощью cmd (расширение gz непонятно откуда там берётся - это обычные svg-файлы), затем в Notepad++ регулярками почистил, превратив в валидный html, а дальше просто открыл этот html и попытался сохранить как pdf через "Печать" - второе, что приходит в голову (первое - поискать софт, умеющий превращать папку с svg в pdf).
js-newbie, что там искать?
ImageMagick наделает из папки SVG папку PDF, pdfjam соберет ее в один документ.
Получилось то скачать или нет?
Каким способом хотя бы выгрузить в папку файлы?

Answer 1 · 2023-02-06 22:54:44

С высокой долей вероятности там стоит защита, которая мешает скачать файл, если обращение к нему неавторизовано (откуда и ошибка 403).

Работает она примерно следующим образом: запрос к ресурсу (файлу) подписывается специальным ключом, который сравнивается с теми, что есть в базе, и если всё ок, то возвращается файл, в противном случае запрос завершается ошибкой.

Тут нужно или этот «ключ» иметь в наличии и передавать его, или уже никак, т.к. прочие методы являются незаконными.

Answer 2 · 2023-02-07 13:35:42

Т.к. просмотренные страницы это SVG-изображения, то они вероятно остаются в кеше браузера.
Если пользуетесь Chrome, то попробуйте покопаться в кеше при помощи вот этого приложения: https://www.nirsoft.net/utils/chrome_cache_view.html

Из минусов данного подхода: придётся всё-таки предварительно просмотреть все страницы книги чтобы они сохранились в кеше. Плюс, не всё что вы видите сохраняется в кеше, возможно где-то есть настройка принудительно хранить всё, не знаю.
Собственно, к чему я это написал: возможно он не авторизовывался, а просто сохранил страницы из кеша, меня на эту мысль натолкнули случайные страницы не в том порядке, они далеко не всегда сохраняются подряд.

Answer 3 · 2023-02-16 10:37:36

Я обычно такие задачи решаю на selenium, попроси ChatGPT, написать тебе код. При открытии страницы скорее всего там и скрипты есть, которые подгружать будут страницы налету, по этому тут без эмуляции браузера никак.

Answer 4 · 2023-02-16 19:23:30

Есть такой софт Offline Explorer. Он умеет качать ссылки по шаблону, умеет авторизоваться и открывать все страницы как пользователь, умеет проходить по ссылкам и качать доп. материалы. В общем думаю на 95% вашу проблему можно там легко решить.

Как скачать документ, книгу с защищенного сайта(только чтение) (Для примера взял книгу с открытым доступом)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт