Распознование текста в pdf с внедрением его в тот же pdf, возможно ли бесплатно, т.е. даром?

Есть энное количество jpg файлов, стоит задача сперва пакетно перегнать из в pdf. Думаю с этим проблем не будет.
А потом не прилагая особых усилий распознать текст в pdf и внедрить его в файлы.
Затем файлы будут залиты в электронный архив LogicalDoc бесплатной редакции, который текстовые документы парсит и умеет по ним искать, но сам распознавать текст из рисунка, увы, не умеет.
  • Вопрос задан
  • 210 просмотров
Пригласить эксперта
Ответы на вопрос 1
@rPman
Почему текст нужно править и распознавать именно в pdf а не ранее, в jpeg?

tesseract - открытый и бесплатный набор утилит для распознавания текстов, обычно предварительно с изображением делают манипуляции используя фильтры или какую еще логику, чтобы tesseract мог это распознать (например если изображение - это не сканы а фото бумажных документов, необходимо убрать световые переходы и искажения геометрии).

p.s. 'не прилагая особых усилий' - не получится
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы