Как автоматически из отсканированного документа убрать информацию?

Question

Fagot78 @Fagot78

Как автоматически из отсканированного документа убрать информацию?

Есть задача - сканирование большого объема документов. В этих документах есть информация, которую необходимо в автоматическом режиме убирать. По ключевым словам. Допустим, определенную номенклатуру в спецификациях. Чтобы скан документа (pdf, jpg и т.д.) уже этих слов не имел
Есть ли такой софт?

Вопрос задан более трёх лет назад
104 просмотра

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
Skillbox

Профессия 1С-программист

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Fagot78 @Fagot78 Автор вопроса

Файнридер. Не видел функционала по автоматическому редактированию растрового документа. Может ссылкой поделитесь на описание?
CineForms - вроде как вообще про обработку видео

SDK... Мне бы хотелось просто получить готовое ПО для эксплуатации

Написано более трёх лет назад
Владимир Коротенко @firedragon

Fagot78,

https://help.abbyy.com/en-us/finereader/14/user_gu...

https://habr.com/ru/post/153617/

Давно не копался, скинул подходящие ссылки, посмотрите

Написано более трёх лет назад
Владимир Коротенко @firedragon

Fagot78, До кучи вымарывание слов возможно после распознавания. Отдельный квест это рукописные пометки.

Написано более трёх лет назад
Fagot78 @Fagot78 Автор вопроса

Владимир Коротенко, я это читал. Возможно я некорректно ставлю задачу. Нужно, чтобы софт сам, в автоматическом режиме, находил в результате сканирования слова из словаря и сразу их вымарывал, чтобы в сохранение попадал растр уже с вымаранными словами
А по Вашей ссылке надо это делать вручную...

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 285 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 480 просмотров
2

ответа
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент. 2025
- 5733 просмотра
2

ответа
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 377 просмотров
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- 23 июн. 2025
- 474 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- 08 мая 2025
- 2049 просмотров
2

ответа
Принтеры

+2 ещё

Простой
Как правильно настроить сканирование в папку на МФУ Ricoh Aficio MP 5002SP?
- 1 подписчик
- более года назад
- 115 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 232 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Как добиться распознавания текста и цифр в 99,9%?
- 1 подписчик
- более года назад
- 271 просмотр
3

ответа
Нейронные сети

+2 ещё

Простой
Какие есть нейросети для распознавания русского/английского?
- 5 подписчиков
- более года назад
- 1959 просмотров
1

ответ
Показать ещё Загружается…

Java разработчик | Developer

Hireway

от 200 000 до 250 000 ₽

Java разработчик | Developer

Hireway

от 80 000 до 110 000 ₽

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Answer 1 · 2020-02-10 17:41:28

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

Файнридедер
CineForms

Оба имеют sdk для корпоративных клиентов

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2020-02-11 03:09:14

Вариант1:
Расспознаем tesseract'ом в HOCR, находим в нем нужные слова и их координаты. Imagemagick'ом закрашиваем слова на сканам по координатам.
Вариант2:
Распознаем FineReader'ом, экспортируем в djvu, извлекаем из djvu текстовой слой с координатами и парсим его. Далее тоже самое с Imagemagick.
Все это можно автоматизировать скриптами.

Как автоматически из отсканированного документа убрать информацию?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт