Как автоматически из отсканированного документа убрать информацию?

Есть задача - сканирование большого объема документов. В этих документах есть информация, которую необходимо в автоматическом режиме убирать. По ключевым словам. Допустим, определенную номенклатуру в спецификациях. Чтобы скан документа (pdf, jpg и т.д.) уже этих слов не имел
Есть ли такой софт?
  • Вопрос задан
  • 80 просмотров
Пригласить эксперта
Ответы на вопрос 2
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Файнридедер
CineForms

Оба имеют sdk для корпоративных клиентов
Ответ написан
@U235U235
Вариант1:
Расспознаем tesseract'ом в HOCR, находим в нем нужные слова и их координаты. Imagemagick'ом закрашиваем слова на сканам по координатам.
Вариант2:
Распознаем FineReader'ом, экспортируем в djvu, извлекаем из djvu текстовой слой с координатами и парсим его. Далее тоже самое с Imagemagick.
Все это можно автоматизировать скриптами.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы