Есть простой способ парсинга pdf на с#?

Question

sir_Maverick @sir_Maverick

Есть простой способ парсинга pdf на с#?

Знаю про библиотеку itext, но есть ли более простые библиотеки для того, чтобы программно открыть пдф-файл, найти там некий текст (текст известен, вернее его префиксы) и скопировать его оттуда?
Возможно есть способ сделать это без сторонних библиотек?
Используется C# + .net framework 4.7.2

Вопрос задан более трёх лет назад
249 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Merion Academy

C# разработчик с нуля

4 месяца

Далее
Stepik

Профессия "C# разработчик"

1 неделя

Далее
XYZ School

C# для разработки игр

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

14 комментариев

Владимир Коротенко @firedragon

Вы точно знаете о чем говорите?

%PDF-1.4
%ГГ¬В¦"
% Created by calibre 3.26.1 [https://calibre-ebook.com]

4 0 obj
<< /Type /XObject /Subtype /Image /Width 810 /ColorSpace /DeviceRGB /Filter [/DCTDecode] /Length 198964 /Height 1000 /DL 198964 /BitsPerComponent 8 >>
stream
яШяа JFIF ,, яЫ C

яЫ CяА и*" яД
яД µ } !1AQa"q2Ѓ‘Ў#B±БRСр$3br‚
%&'()*456789:CDEFGHIJSTUVWXYZcdefghijstuvwxyzѓ„…†‡€‰Љ’“”•–—™љўЈ¤Ґ¦§Ё©ЄІіґµ¶·ё№єВГДЕЖЗИЙКТУФХЦЧШЩЪбвгдежзийкстуфхцчшщъяД
яД µ w !1AQaq"2ЃB‘Ў±Б #3RрbrС
$4б%с&'()*56789:CDEFGHIJSTUVWXYZcdefghijstuvwxyz‚ѓ„…†‡€‰Љ’“”•–—™љўЈ¤Ґ¦§Ё©ЄІіґµ¶·ё№єВГДЕЖЗИЙКТУФХЦЧШЩЪвгдежзийктуфхцчшщъяЪ ? ьЧўЉ+Cњ(ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ (ўЉ

Написано более трёх лет назад
Владимир Коротенко @firedragon

Василий Банников он то бинарный, но разобрать его можно. Теже секции и текстовые блоки. А вот OCR тут совершенно не при чем

Написано более трёх лет назад
Василий Банников @vabka

Владимир Коротенко, ну и в каком месте тут читаемый текст?)
https://habr.com/ru/post/69568/
И это ещё без учёта кастомных таблиц кодировок.

Написано более трёх лет назад
Василий Банников @vabka

Владимир Коротенко, если бы существовал универсальный способ чтения текста из пдф-ок, то он бы давно появился в pandoc

Написано более трёх лет назад
Владимир Коротенко @firedragon

Василий Банников, Меня покоробило OCR

Написано более трёх лет назад
Hemul GM @HemulGM

Владимир Коротенко, OCR, потому что многие PDF файлы могут из себя представлять "вставленные" картинки-сканы. Какие текстовые блоки вы там найдёте?

Написано более трёх лет назад
Владимир Коротенко @firedragon

Hemul GM, это уже полная профанация текстовой формат использовать как контейнер для графики. Ну и обычно все же идёт скан и распознанный текст.

Написано более трёх лет назад
sir_Maverick @sir_Maverick Автор вопроса

Не, пдфки, которые нужно спарсить не являются картинками в контейнере, текст читаемый, копируемый, они генерируются однии веб-сервисом из внутренних данных.

Написано более трёх лет назад
Hemul GM @HemulGM

Владимир Коротенко, pdf - это не текстовый формат (вики). И, повторяю, очень и очень часто его используют как контейнер со списком сканов. Я удивлён, что Вы этим удивлены.

Написано более трёх лет назад
Владимир Коротенко @firedragon

Hemul GM, Мне такое редко попадалось, чаще PDF/A, но это специфика работы.

Написано более трёх лет назад
# @mindtester Куратор тега C#

Hemul GM, Василий Банников, вообще то Владимир Коротенко, абсолютно прав, в корпоративном сегменте pdf как правило содержит секции текста, легко извлекаемые, с вставками бинарной графики. иначе документы были бы неоправданно раздутыми

чистая графика идет обычно только тогда, когда pdf генерируется из графического источника (типа сканов и факсов), или если задаются опции для генерации чистой графики (обычно для затруднения извлечения текста. хотя для этого есть и другие опции)

тут нет особого предмета для спора. sir_Maverick, вам надо просто уточнить для себя с какими именно документами вы имеете дело. если открыть pdf в браузере, и попытаться выделить и скопировать текст, сразу будет понятно графика это или текстовый блок. ну или открыть в word - если имеются текстовые блоки, документ может быть конвертирован в обычный doc(x), хотя и с потерей точного форматирования, но текст будет сохранен как есть. для графики потребуется OCR, а для текстовых блоков искать либы или изучить формат самостоятельно (но не факт что это просто ;))

Написано более трёх лет назад
Hemul GM @HemulGM

#, ну так я об этом и говорю. Но

он то бинарный, но разобрать его можно. Теже секции и текстовые блоки. А вот OCR тут совершенно не при чем

OCR тут имеет место быть, если документ всё таки - скан.

Написано более трёх лет назад
sir_Maverick @sir_Maverick Автор вопроса

#, попробую открыть с помощью interop.Word, т.к. ворд открывает эти пдфки и отображает внутри текст, плюс скорее всего пдф-файлы генерятся из хтмл внутри сервиса (а не из картинок), а эту библиотеку я все равно использую для создания конечных документов. Спасибо за идею.

Написано более трёх лет назад
# @mindtester Куратор тега C#

sir_Maverick, не за что )) вы сами развили до решения ))
сам лишь позднее вспомнил, что использовал Interop.Word для конвертации ))

Написано более трёх лет назад