Задать вопрос
@rsi
software engineer

Как на c# парсить pdf как сруктуру?

Интересует как парсить pdf не просто как гору текста, а как сруктуру. В частности чтение таблиц.
  • Вопрос задан
  • 8244 просмотра
Подписаться 4 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
ant99
@ant99
stackoverflow.com/questions/3424588/programmatically-extract-pdf-tables
Considering your requirement, Straight forward answer for your question would be it is quite not possible. The reason is, unlike word/excel, PDF specification does not have a object called Table. The table which you see in those PDF documents are just series of rectangle drawn in such a way that it looks like table and it is up to PDF Writer which created those PDF files, because some might draw table kind of structure using Series of Line.

Иными словами, спецификация PDF не поддерживает описание таблиц как объектов; таблицы в PDF представлены набором прямоугольных областей и линий. Можно создать собственный алгоритм, который по определённым признакам будет распознавать такой набор областей как таблицу, а можно использовать существующие библиотеки и утилиты, в которых это уже реализовано (приведены в последнем комментарии по ссылке).
Ответ написан
Zhbert
@Zhbert
Technical Writer, Linux user
Ну, для начала надо найти описание формата PDF, и потом толкаться уже от этого.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы