Знаю про библиотеку itext, но есть ли более простые библиотеки для того, чтобы программно открыть пдф-файл, найти там некий текст (текст известен, вернее его префиксы) и скопировать его оттуда?
Возможно есть способ сделать это без сторонних библиотек?
Используется C# + .net framework 4.7.2
Не, пдфки, которые нужно спарсить не являются картинками в контейнере, текст читаемый, копируемый, они генерируются однии веб-сервисом из внутренних данных.
Владимир Коротенко, pdf - это не текстовый формат (вики). И, повторяю, очень и очень часто его используют как контейнер со списком сканов. Я удивлён, что Вы этим удивлены.
Hemul GM, Василий Банников, вообще то Владимир Коротенко, абсолютно прав, в корпоративном сегменте pdf как правило содержит секции текста, легко извлекаемые, с вставками бинарной графики. иначе документы были бы неоправданно раздутыми
чистая графика идет обычно только тогда, когда pdf генерируется из графического источника (типа сканов и факсов), или если задаются опции для генерации чистой графики (обычно для затруднения извлечения текста. хотя для этого есть и другие опции)
тут нет особого предмета для спора. sir_Maverick, вам надо просто уточнить для себя с какими именно документами вы имеете дело. если открыть pdf в браузере, и попытаться выделить и скопировать текст, сразу будет понятно графика это или текстовый блок. ну или открыть в word - если имеются текстовые блоки, документ может быть конвертирован в обычный doc(x), хотя и с потерей точного форматирования, но текст будет сохранен как есть. для графики потребуется OCR, а для текстовых блоков искать либы или изучить формат самостоятельно (но не факт что это просто ;))
#, попробую открыть с помощью interop.Word, т.к. ворд открывает эти пдфки и отображает внутри текст, плюс скорее всего пдф-файлы генерятся из хтмл внутри сервиса (а не из картинок), а эту библиотеку я все равно использую для создания конечных документов. Спасибо за идею.