Как автоматически из отсканированного документа убрать информацию?
Есть задача - сканирование большого объема документов. В этих документах есть информация, которую необходимо в автоматическом режиме убирать. По ключевым словам. Допустим, определенную номенклатуру в спецификациях. Чтобы скан документа (pdf, jpg и т.д.) уже этих слов не имел
Есть ли такой софт?
Файнридер. Не видел функционала по автоматическому редактированию растрового документа. Может ссылкой поделитесь на описание?
CineForms - вроде как вообще про обработку видео
SDK... Мне бы хотелось просто получить готовое ПО для эксплуатации
Владимир Коротенко, я это читал. Возможно я некорректно ставлю задачу. Нужно, чтобы софт сам, в автоматическом режиме, находил в результате сканирования слова из словаря и сразу их вымарывал, чтобы в сохранение попадал растр уже с вымаранными словами
А по Вашей ссылке надо это делать вручную...
Вариант1:
Расспознаем tesseract'ом в HOCR, находим в нем нужные слова и их координаты. Imagemagick'ом закрашиваем слова на сканам по координатам.
Вариант2:
Распознаем FineReader'ом, экспортируем в djvu, извлекаем из djvu текстовой слой с координатами и парсим его. Далее тоже самое с Imagemagick.
Все это можно автоматизировать скриптами.