Как на c# парсить pdf как сруктуру?

Question

Евгений Елчев @rsi

software engineer

Как на c# парсить pdf как сруктуру?

Интересует как парсить pdf не просто как гору текста, а как сруктуру. В частности чтение таблиц.

Вопрос задан более трёх лет назад
8274 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 721 просмотр
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 541 просмотр
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 617 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 536 просмотров
2

ответа
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 188 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1339 просмотров
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 727 просмотров
4

ответа
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 133 просмотра
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 361 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2012-07-03 09:22:57

stackoverflow.com/questions/3424588/programmatically-extract-pdf-tables

Considering your requirement, Straight forward answer for your question would be it is quite not possible. The reason is, unlike word/excel, PDF specification does not have a object called Table. The table which you see in those PDF documents are just series of rectangle drawn in such a way that it looks like table and it is up to PDF Writer which created those PDF files, because some might draw table kind of structure using Series of Line.

Иными словами, спецификация PDF не поддерживает описание таблиц как объектов; таблицы в PDF представлены набором прямоугольных областей и линий. Можно создать собственный алгоритм, который по определённым признакам будет распознавать такой набор областей как таблицу, а можно использовать существующие библиотеки и утилиты, в которых это уже реализовано (приведены в последнем комментарии по ссылке).

Answer 2 · 2012-07-03 08:42:26

Nishakins @Enceronagh

Ну, для начала надо найти описание формата PDF, и потом толкаться уже от этого.

Ответ написан более трёх лет назад

1 комментарий

Как на c# парсить pdf как сруктуру?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт