Чем можно распарсить doc (docx), pdf на PHP?

Question

King_Of_Magic @King_Of_Magic

Чем можно распарсить doc (docx), pdf на PHP?

На данный момент стоит задача распарсить содержимое Word-документа, а именно — там большая таблица (не спрашивайте почему не в экселе, не я автор исходного материала) и нужно считать значения всех её ячеек, причём нужно будет ещё понять что к чему относится (оно построена по типу таблицы умножения Пифагора — на пересечении строк и столбцов искомые данные).

С pdf — все тоже самое: нужен текст, таблица, картинки…

Какие библиотеки для PHP посоветуете?

Вопрос задан более трёх лет назад
15537 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 339 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2013-02-07 23:40:58

С DOCX все проще — это просто сжатый контейнер содержащий XML файлы, из которых уже можно распарсить данные. Библиотек массы, нужно смотреть по требуемому функционалу.

А вот PDF — знаю только о FPDF. Я бы рекомендовал найти какой-либо инструмент на подобии PDF2HTML и из PHP просто выполнять команду для выдирания информации.

Answer 2 · 2013-02-07 23:46:58

Для docx решений куча, как выше сказали. А pdf, очевидно, в общем случае разобрать на «текст, таблица, картинки» невозможно. Вернее, возможно, но ограничено.

Answer 3 · 2013-02-08 16:31:16

PDF мне доводилось разбирать после pdftohtml. Таблиц там нет — компоновку можно выяснять по координатам в стилях. Криво и неудобно, но другого решения я не нашел.
Выдача в xml формате, имхо, получается удобнее для парсинга.

Answer 4 · 2013-02-08 17:30:17

Насчет pdf уже много сказали. Насчет Doc / Docx —
1) habrahabr.ru/post/138666/
habrahabr.ru/post/140012/

Тут достаточно толково описано, как все это устроено изнутри

2) Где то из этой же серии статей было и про .doc

3) Мой вам совет www.phpdocx.com/
В свое время тоже думали, что проще руками все сделать. Там есть бесплатная версия. Для большинства простых задач ее должно хватить.

PS но про то, как все устроено, все равно почитайте.

Чем можно распарсить doc (docx), pdf на PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт