Как скачать защищенный от скачивания PDF-файл с сайта?

Question

NSGrid @NSGrid

Как скачать защищенный от скачивания PDF-файл с сайта?

Приветствую всех!
На сайте электронной библиотеки "Наука права" (https://naukaprava.ru/) выложены в свободном доступе по желанию автора (как указано в профиле книги) некоторые книги. В частности, интересует 15-й том Стенограммы Нюрнбергского процесса.
Раньше можно было свободно скачивать книги, которые доступны бесплатно, в формате PDF. Но сейчас, как мне написала поддержка, "баг исправлен" и книги можно только просматривать и читать с сайта, а скачивать нельзя.

Ссылка на книгу - https://naukaprava.ru/read/?id=91464 (для просмотра необходима бесплатная регистрация и авторизация на сайте). Ниже см. скриншот в конце вопроса.

Помогите, пожалуйста скачать книгу или понять механизм как ее скачивать? На первый взгляд принцип понятен, книга запускается на странице в отдельном фрейме в просмоторщике PDF, но не штатном, а их просмоторщик, не имеющем кнопки "скачать". и который похож на штатный в браузере, Также после того, как почитал по Сети про разные способы скачать файлы в подобных случаях я попытался через инструменты разработчика понять к какому файлу обращается сайт и что скачивает он во фрейм.

Выяснилось, что обращается он к некому файлу https://naukaprava.ru/65eef6c52a6bd.pbf - обратите внимание, в расширении не опечатка, там именно PBF. То есть тоже какой-то метод защиты, типа файл PDF, но у него другое расширение что ли? Но скачать и этот файл с другим расширением не получается, если я пытаюсь выцепить эту ссылку отдельно, то файл просто не скачивается, пишет, что его просто нет на сайте.

Вот для иллюстрации привожу скриншоты.
Так выглядит фрейм с загруженной книгой на сайте в просмоторщике.

На этом скриншоте вы можете увидеть как я выцепляю загружаемый файл 65eef6c52a6bd.pbf через инструменты разработчика в браузере.

А вот реакция сайта на попытку напрямую стянуть файл по выцепленной ссылке.

В общем, что там за защита, как можно скачать эту книгу в формате PDF?

Вопрос задан более года назад
19258 просмотров

14 комментариев

Подписаться 6 Средний 14 комментариев

Nicolas Mur @live_4_ever

А почему бы просто не скачать с другого места?)

Написано более года назад
Олег @402d

купить дешевле. Не пробиваемых защит нет. Если страница рисуется в броузере, то способ получить ее
точно есть. Вот только скорее после всей автоматизации сгенерированный pdf файл будет мало чем отличаться от PCLm (вроде бы и пдфка, но на странице может располагаться только графический блок)

Грубо говоря на выходе будет файл, в котором каждая страница просто картинка.

Написано более года назад
NSGrid @NSGrid Автор вопроса

Nicolas Mur, К сожалению, гугление не нашло этот новый 15-й том в других местах в интернете. Там даже написано на сайте, что это "первопубликация". Видимо, у автора эксклюзив выкладывать именно на сайте этой библиотеки, которая не дает скачивать.
Олег, В том-то и маразм поддержки магазина, которой я первым делом написал, устранившей ранее "баг", что купить его для скачивания нельзя. Мол, только вот смотрите через сайт. Идиотизм, да и только. :(

Вот только скорее после всей автоматизации сгенерированный pdf файл будет мало чем отличаться от PCLm (вроде бы и пдфка, но на странице может располагаться только графический блок)

В том то и дело, на сайте загруженная книга явно ведет себя так, как будто она загружена в стандартный просмоторщик PDF в браузере, но просто нет кнопки "скачать". Мне кажется там именно подгружается PDF. Кстати, про метод распечатывания я знаю и я пробовал, он генерирует печать на несколько страниц, да и в графическом блоке.

Написано более года назад
Олег @402d

NSGrid, ну изучайте баги дальше. Уязвимый момент искать в логах при переходе от странице к странице.
Предполагаю, что в этот момент сайт отдает графический образ нужной страницы.
скорее как data encoded. А скрипт их рисует на canvas.

Написано более года назад
Nicolas Mur @live_4_ever

NSGrid, даже на торрентах нет 15 тома. Всего 14 из 21. Так что не жди.

Написано более года назад
NSGrid @NSGrid Автор вопроса

Nicolas Mur, конечно нет, он есть сейчас только на сайте той библиотеки, где я ссылку выше дал, а ранее, как я уже писал, там можно было просто свободно скачать, пока веб-мастера сайта почему-те не убрали эту возможность, вероятно, раньше там просто все скачали и выложили на торренты, если кто-то найдет нормальный способ стянуть, то тогда, видимо появится на торрентах и 15-й том и оставшиеся (когда выйдут).
Но я вообще не преследовал цель пиратить, я просто для себя хотел скачать в коллекцию как интересное издание перевода всей стенограммы Нюрнбергского процесса на русский язык, который. представьте себе, и спустя столько лет после его завершения до сих пор не сделан в полном объеме. Кроме того, тут сложно говорить о возможном пиратстве, так как эти труды автором распространяется бесплатно. Также на другом сайте с электронными книгами "Милитера" (militera.org/docs/all/s/b55290) первые 14 томов лежат до сих пор и доступны для скачивания в PDF.

Написано более года назад
Adamos @Adamos

NSGrid, подгружается PDF с шифрованными потоками, можно сохранить из браузера этот файл pbf и скормить его mutool, например - но у меня результат получился довольно кривым, сотня страниц из середины.

Написано более года назад
NSGrid @NSGrid Автор вопроса

Adamos, можете ли вы детали дать? Подгружаете в результате какого действия? И как вы вообще сохранили этот PBF, который по прямой ссылке недоступен?

Написано более года назад
Adamos @Adamos

NSGrid, открыл вашу страничку в Firefox с открытыми инструментами разработчика на вкладке "Сеть" и правой кнопкой по запросу сохранил его содержимое. Firefox даже любезно перекодировал base64 в бинарный формат.

Написано более года назад
NSGrid @NSGrid Автор вопроса

Adamos, спасибо, понял, у меня сохранилось тоже, файл размером 1024 КБ, а что это вообще за PBF? То есть это некий PDF, но в авторском ("авторском" не в смысле автора публикации, а в смысле за "авторством" веб-мастеров сайта библиотеки) шифрованном исполнении? Интересен, кстати и размер, в 1024 КБ, значит он подгружается по частям или это сжатие такое? Я помню, что полный том, в стандартном нешифрованном PDF, когда они были доступны для скачивания, занимали 3,5 - 4 Мб.

Написано более года назад
Adamos @Adamos

NSGrid, можно попробовать полистать страницы в отображаемой книге и посмотреть, не подкачается ли другой .pbf с другим куском материала.

Написано более года назад
NSGrid @NSGrid Автор вопроса

Adamos, А, кстати, в колонке "передано" в той строчке, где этот PBF инструментов разработчика браузера Firefox указано, что передано 3.88 Мб. Это как раз примерный размер полного тома в PDF. Интересно почему, сохраняется тогда только 1024 КБ? А вы выбирали команду "Сохранить ответ как (M)"? Или сохранить все как HAR? (хотя PBF сохраняется только при варианте сохранить все как M)

Написано более года назад
Adamos @Adamos

NSGrid, потому что тянется base64, а он занимает втрое больше места, полагаю. FF сохраняет бинарный файл.

Написано более года назад
modelair @modelair

вам надо pdf.js изучить, чтобы понять как это работает. на беглый взгляд никакой pdf там вообще нет
https://github.com/mozilla/pdf.js

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 181 просмотр
3

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 263 просмотра
4

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 120 просмотров
1

ответ
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 164 просмотра
0

ответов
JavaScript

Простой
Смещение группы в fabric.js?
- 1 подписчик
- 06 нояб.
- 131 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 227 просмотров
1

ответ
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 143 просмотра
0

ответов
JavaScript

Простой
Как создать рисунок из PHP в Fabric.js?
- 2 подписчика
- 28 окт.
- 173 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Какой скрипт загружает меню в Ютуб?
- 2 подписчика
- 27 окт.
- 296 просмотров
2

ответа
Windows

+1 ещё

Простой
Как вернуть встроенный предпросмотр PDF в Windows?
- 2 подписчика
- 25 окт.
- 845 просмотров
3

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

Web-разработчик/WordPress программист (Full-stack)

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

А почему бы просто не скачать с другого места?)
купить дешевле. Не пробиваемых защит нет. Если страница рисуется в броузере, то способ получить ее
точно есть. Вот только скорее после всей автоматизации сгенерированный pdf файл будет мало чем отличаться от PCLm (вроде бы и пдфка, но на странице может располагаться только графический блок)

Грубо говоря на выходе будет файл, в котором каждая страница просто картинка.
Nicolas Mur, К сожалению, гугление не нашло этот новый 15-й том в других местах в интернете. Там даже написано на сайте, что это "первопубликация". Видимо, у автора эксклюзив выкладывать именно на сайте этой библиотеки, которая не дает скачивать.
Олег, В том-то и маразм поддержки магазина, которой я первым делом написал, устранившей ранее "баг", что купить его для скачивания нельзя. Мол, только вот смотрите через сайт. Идиотизм, да и только. :(

Вот только скорее после всей автоматизации сгенерированный pdf файл будет мало чем отличаться от PCLm (вроде бы и пдфка, но на странице может располагаться только графический блок)

В том то и дело, на сайте загруженная книга явно ведет себя так, как будто она загружена в стандартный просмоторщик PDF в браузере, но просто нет кнопки "скачать". Мне кажется там именно подгружается PDF. Кстати, про метод распечатывания я знаю и я пробовал, он генерирует печать на несколько страниц, да и в графическом блоке.
NSGrid, ну изучайте баги дальше. Уязвимый момент искать в логах при переходе от странице к странице.
Предполагаю, что в этот момент сайт отдает графический образ нужной страницы.
скорее как data encoded. А скрипт их рисует на canvas.
NSGrid, даже на торрентах нет 15 тома. Всего 14 из 21. Так что не жди.
Nicolas Mur, конечно нет, он есть сейчас только на сайте той библиотеки, где я ссылку выше дал, а ранее, как я уже писал, там можно было просто свободно скачать, пока веб-мастера сайта почему-те не убрали эту возможность, вероятно, раньше там просто все скачали и выложили на торренты, если кто-то найдет нормальный способ стянуть, то тогда, видимо появится на торрентах и 15-й том и оставшиеся (когда выйдут).
Но я вообще не преследовал цель пиратить, я просто для себя хотел скачать в коллекцию как интересное издание перевода всей стенограммы Нюрнбергского процесса на русский язык, который. представьте себе, и спустя столько лет после его завершения до сих пор не сделан в полном объеме. Кроме того, тут сложно говорить о возможном пиратстве, так как эти труды автором распространяется бесплатно. Также на другом сайте с электронными книгами "Милитера" (militera.org/docs/all/s/b55290) первые 14 томов лежат до сих пор и доступны для скачивания в PDF.
NSGrid, подгружается PDF с шифрованными потоками, можно сохранить из браузера этот файл pbf и скормить его mutool, например - но у меня результат получился довольно кривым, сотня страниц из середины.
Adamos, можете ли вы детали дать? Подгружаете в результате какого действия? И как вы вообще сохранили этот PBF, который по прямой ссылке недоступен?
NSGrid, открыл вашу страничку в Firefox с открытыми инструментами разработчика на вкладке "Сеть" и правой кнопкой по запросу сохранил его содержимое. Firefox даже любезно перекодировал base64 в бинарный формат.
Adamos, спасибо, понял, у меня сохранилось тоже, файл размером 1024 КБ, а что это вообще за PBF? То есть это некий PDF, но в авторском ("авторском" не в смысле автора публикации, а в смысле за "авторством" веб-мастеров сайта библиотеки) шифрованном исполнении? Интересен, кстати и размер, в 1024 КБ, значит он подгружается по частям или это сжатие такое? Я помню, что полный том, в стандартном нешифрованном PDF, когда они были доступны для скачивания, занимали 3,5 - 4 Мб.
NSGrid, можно попробовать полистать страницы в отображаемой книге и посмотреть, не подкачается ли другой .pbf с другим куском материала.
Adamos, А, кстати, в колонке "передано" в той строчке, где этот PBF инструментов разработчика браузера Firefox указано, что передано 3.88 Мб. Это как раз примерный размер полного тома в PDF. Интересно почему, сохраняется тогда только 1024 КБ? А вы выбирали команду "Сохранить ответ как (M)"? Или сохранить все как HAR? (хотя PBF сохраняется только при варианте сохранить все как M)
NSGrid, потому что тянется base64, а он занимает втрое больше места, полагаю. FF сохраняет бинарный файл.
вам надо pdf.js изучить, чтобы понять как это работает. на беглый взгляд никакой pdf там вообще нет
https://github.com/mozilla/pdf.js

Answer 1 · 2024-03-11 21:30:56

Скопировать через буфер можно только неформатированный текст и только текущие +-10 страниц (вручную можно но долго и нудно, потом сшивать).
1. Реверсить их вьювер долго и дорого.
2. Скринить странички - для личного использования подойдет (набор картинок, соединить в pdf и читать не проблема, но железные слабые читалки могут такие не прожевать), сделать не программисту можно с помощью любой автоматизации, например autoit. Логика следующая - открываешь нужный сайт в максимальном размере на полный экран (полный экран и настроить По ширине страницы), затем продумываешь свои действия (мышь/клавиатура) такими, чтобы если их повторять, копировалось все содержимое без пропусков и повторов, в данном случае это кнопка PageDown и копирование экрана (можно по количеству страниц посчитать сколько это будет действий)

В коде autoit это будет for loop

For $i = 1 To 100500
...
Next

шлешь нажатие кнопки
Send('{PGDN}')

ждешь секунду (там примерно каждые 10 страниц генерация и удаление старых) sleep

делаешь скрин с экрана

_ScreenCapture_Capture(StringFormat('%09i', $i) & '.png', 0, 0, @DesktopWidth, @DesktopHeight, False)

нужно подобрать размеры чтобы лишнее не копировать
StringFormat тут добавляет к номеру слева нули, чтобы при сшивании порядок не был 1 -> 11 -> 2 -> 3....

по итогу работы получишь тысячу картинок, объединяешь их с помощью imagemagic
magick *.png out.pdf

3. способ - их pdf просмотрщик генерирует валидный html для текста (с картинками сложнее),
css selector
$('#pageContainer2 > .textLayer').innerHTML
тут номер у pageContainer это номер страницы, но в один момент времени заполнены текстом только текущие видимые +- поэтому код нужно будет написать, чтобы корректно в нужный момент времени читать нужные

Можно конечно заморочиться и запилить selenium приложение которое будет листать странички и собирать html-ку, можно в полуручном режиме прямо в браузере в консоли написать пару строчек, собирая текст в localStorage (он ограничен 5-мб кажется). html код там прямо такой (по кускам текста как они были в pdf)
Кликать на следующую страничку - $('#next').click()

<div style="left: 83.5342px; top: 384.732px; font-size: 20.5963px; font-family: serif; transform: scaleX(0.793798);" data-canvas-width="404.5723586629188">Стенограмма  Нюрнбергского  процесса.  Том </div>

т.е. останется только стили добавить или скопировать их с сайта и готовая отформатированная html будет готова

Как скачать защищенный от скачивания PDF-файл с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт