Как с помощью PHP можно распарсить PDF?

Question

Антон Пискунов @antonydevanchi

10 лет в айтишке

Как с помощью PHP можно распарсить PDF?

Задача: открыть документ и получить удобоваримый текст.
Опробовано: всё. Действительно всё, у меня весь гугл в сиреневых ссылках и даже контекстная реклама меня уже жалеет и предлагает купить ридер пдф книг.

Помимо PHP готов использовать любую другую технологию которая даст гарантированный результат. Но все же не хотелось бы уходить от родного для проекта языка.

Хардкорный вариант с написанием парсера с нуля по спекам формата не особо желателен в силу запутанности формата и зоопарка версий.

Вопрос задан более трёх лет назад
16191 просмотр

1 комментарий

Подписаться 9 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 8

1 комментарий

3 комментария

Антон Пискунов @antonydevanchi Автор вопроса

Пока в таком случае я получал plaint text без какой либо возможности понять что является заголовком, а что выделено курсивом и т.п. Просто портянка текста.

upd: желательно что бы это был кроссплатформенный инструмент, а работа через exec с определенной утилитой это чистый linux-way и разработчикам на Win будет довольно неприятно работать с таким кодом который нельзя запустить.

Написано более трёх лет назад
plaha @plaha

на Win все запустится. Можно посмотреть pdf to html конверторы, возможно они сохранят структуру файла

Написано более трёх лет назад
Антон Пискунов @antonydevanchi Автор вопроса

Совершенно всё бьет логическую структуру документа, нет никаких шансов распарсить ту кашу которую генерит 2html конвертор.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 539 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 441 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 335 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
Показать ещё Загружается…

Варианты:
1. pdftotext -> plainttext
2. pdftohtml -> html, xml
3. habrahabr.ru/post/130601/ — конвертирование в .svg (визуально круто, в коде пока все еще слабо)

Пока нет ничего что бы работало :(

Answer 1 · 2013-01-19 10:56:11

Как вы себе представляете такое преобразование, если в PDF текст хранится строками с определенными координатами, а не абзацами, например? Также текст может храниться картинкой или векторным форматом. Таблицы хранятся набором кусков текста и линиями. Заголовок — просто строка текста чуть большего размера.

Чтобы восстановить логическую структуру текста, надо систему вроде той, которая используется в продуктах fineReader. Систем эта сложная и на ее разработку у Abbee ушла куча денег, вряд ли вы сможете решить задачу проще. А без этого максимум, что вы можете вытащить из файла — это набор блоков вида «строчка такого-то текста расположена по таким-то координатам». Текст может быть разбит переносами.

Абзацы, конечно, еще можно из этого как-то восстановить, выстроив строчки по возрастанию координат, но переносы останутся, а любые нестандартные вещи, вроде подписи к картинке, будут ломать этот алгоритм.

Резюмируя, выберите другой исходный формат, или откажитесь от мысли преобразовать PDF в осмысленный текст, преобразуйте его в картинку например. Иначе вы всю жизнь будете дописывать костыли, как только кто-то захочет подснуть вашей системе текст, сверстанный другим способом.

Answer 2 · 2013-01-18 15:03:35

plaha @plaha

А если использовать сторонний софт через exec() из php? Транслятор pdf в txt, например

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2013-01-18 17:26:47

Я с помощью pdftohtml конвертировал в XML. Далее c помощью SimpleXMLElement спарсивал 3х страничные оглавления из полученного документа.
Или у вас документ изначально похож на plain text загнанный в pdf

Answer 4 · 2013-01-18 15:08:38

Похожий вопрос обсуждалась тут. К сожалению, автор вопроса никак не прокомментировал применимость приведенных в ответах утилит. Возможно, имеет смысл написать ему личное сообщение с аналогичным вопросом, вдруг, он продвинулся в положительную сторону.

Answer 5 · 2013-01-18 15:37:56

oENDark @oENDark

Попробуйте конверт из pdf -> excel, а там уже есть парсеры excel самые разные

Ответ написан более трёх лет назад

1 комментарий

Answer 6 · 2013-01-18 17:39:12

Денис Медведь @BuCeFaL

FPDI www.setasign.de/products/pdf-php-solutions/fpdi/

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2013-01-19 08:34:33

Можно запустить демон опеноффиса, он умеет конвертировать pdf в html, насколько я помню. Или в RTF.

Answer 8 · 2015-04-18 13:43:01

Класс pastebin.com/dvwySU1a

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('Videographer_RFP.pdf'); //grab the test file at http://www.newyorklivearts.org/Videographer_RFP.pdf
$a->decodePDF();
echo $a->output();

Тока проблемы есть с некоторыми символами сам пока разбираюсь почему
Но тут будет чистый текст.

Как с помощью PHP можно распарсить PDF?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт