Распознование текста в pdf с внедрением его в тот же pdf, возможно ли бесплатно, т.е. даром?
Есть энное количество jpg файлов, стоит задача сперва пакетно перегнать из в pdf. Думаю с этим проблем не будет.
А потом не прилагая особых усилий распознать текст в pdf и внедрить его в файлы.
Затем файлы будут залиты в электронный архив LogicalDoc бесплатной редакции, который текстовые документы парсит и умеет по ним искать, но сам распознавать текст из рисунка, увы, не умеет.
Почему текст нужно править и распознавать именно в pdf а не ранее, в jpeg?
tesseract - открытый и бесплатный набор утилит для распознавания текстов, обычно предварительно с изображением делают манипуляции используя фильтры или какую еще логику, чтобы tesseract мог это распознать (например если изображение - это не сканы а фото бумажных документов, необходимо убрать световые переходы и искажения геометрии).
В jpg нельзя, т.к. текст надо встроить в тот же файл, ибо LogicalDoc парсит тексты в pdf и прочих офисных документах, но в jpg по понятным причинам сделать это не может. Хранение же отдельно текста, а отдельно изображения будет неудобно в работе.
Но в целом Ваш ответ понятет и как отправная точка приемлем