Как получить бинарные данные каждой страницы Pdf файла?

Question

Владислав Софиенко @sofvlad

PHP
PDF

Как получить бинарные данные каждой страницы Pdf файла?

Всем привет, комрады. Столкнулся с задачей, где мне понадобилось бы пропарсить PDF файл по страницам, но как получить бинарные данные этого PDF файла на PHP типа file_get_contents() только каждой страницы? Думал, что мне поможет PDF Parser, но я не нашёл метода, который мог бы реализовать это.

Вопрос задан более трёх лет назад
352 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Владислав Софиенко @sofvlad Автор вопроса

Чтобы потом делать ajax запрос на получение pdf страницы и рендерить при помощи pdf.js. Типа так.

Написано более трёх лет назад
ivankomolin @ivankomolin

Ну так бы и написали, что вам нужно просто разбить pdf на страницы. Зачем усложнять? Бинарные файлы, парсить... Решение выше было изложено именно для парсинга содержимого pdf. Я неправильно понял.

Для ваших целей в linux есть инструмент pdfseparate например.

Написано более трёх лет назад
Владислав Софиенко @sofvlad Автор вопроса

ivankomolin, нужно именно средставми php, ибо нужно сразу разбивать при загрузке файла на сервер пользователем и чтобы не зависеть от ОС и прав предоставляемого хостинга.

Написано более трёх лет назад
ivankomolin @ivankomolin

Именно средствами php это будет очень дорого по ресурсам, но возможно что-то подобное есть. Посмотрите tcpdf например.

Но все же советую воспользоваться быстрыми утилитами предназначенными специально для этого. А запускать утилиты можно и через php, если вы не знали.

P. S.:
Не очень понятно бывает слышать "чтобы не зависеть от ОС".
В вебе 99% случаев такую задачу будут решать на *nix.
И врядли хоть одно из этих решений потом сможет запуститься на win.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 89 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 198 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 218 просмотров
3

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 203 просмотра
1

ответ
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 229 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Авторизация вконтакте как настроить?
- 2 подписчика
- 26 мар.
- 380 просмотров
1

ответ
PHP

Простой
СТРОКА — где искать ее истоки на сайте?
- 1 подписчик
- 11 мар.
- 381 просмотр
2

ответа
PHP

Простой
Есть ли такая функция сравнения?
- 2 подписчика
- 09 мар.
- 328 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как быть если ломается сайт, в зависимости от браузера?
- 1 подписчик
- 05 мар.
- 531 просмотр
1

ответ
PHP

Простой
Как отправить файл в Телеграм через OpenServer 6.5.0?
- 1 подписчик
- 02 мар.
- 249 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

PHP и Node.js разработчик

TripShock Adventures

от 1 000 до 2 500 $

Answer 1 · 2018-02-27 16:59:54

По сути задачи подобного вида сводятся к следующему:
1. Разбить страницы pdf на отдельные изображения(например с помощью imagemagick)
2. Прогнать изображения через какую-нибудь OCR(например Tesseract)
3. Cпарсить полученные данные

Зачем получать бинарные данные каждой страницы pdf?

Как получить бинарные данные каждой страницы Pdf файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт