Как автоматически из отсканированного документа убрать информацию?

Question

Fagot78 @Fagot78

Как автоматически из отсканированного документа убрать информацию?

Есть задача - сканирование большого объема документов. В этих документах есть информация, которую необходимо в автоматическом режиме убирать. По ключевым словам. Допустим, определенную номенклатуру в спецификациях. Чтобы скан документа (pdf, jpg и т.д.) уже этих слов не имел
Есть ли такой софт?

Вопрос задан более трёх лет назад
80 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Fagot78 @Fagot78 Автор вопроса

Файнридер. Не видел функционала по автоматическому редактированию растрового документа. Может ссылкой поделитесь на описание?
CineForms - вроде как вообще про обработку видео

SDK... Мне бы хотелось просто получить готовое ПО для эксплуатации

Написано более трёх лет назад
Владимир Коротенко @firedragon

Fagot78,

https://help.abbyy.com/en-us/finereader/14/user_gu...

https://habr.com/ru/post/153617/

Давно не копался, скинул подходящие ссылки, посмотрите

Написано более трёх лет назад
Владимир Коротенко @firedragon

Fagot78, До кучи вымарывание слов возможно после распознавания. Отдельный квест это рукописные пометки.

Написано более трёх лет назад
Fagot78 @Fagot78 Автор вопроса

Владимир Коротенко, я это читал. Возможно я некорректно ставлю задачу. Нужно, чтобы софт сам, в автоматическом режиме, находил в результате сканирования слова из словаря и сразу их вымарывал, чтобы в сохранение попадал растр уже с вымаранными словами
А по Вашей ссылке надо это делать вручную...

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Искусственный интеллект

+1 ещё

Простой
Какая нейросеть лучше подойдёт для распознавания слов из mp3?
- 3 подписчика
- 25 апр.
- 623 просмотра
1

ответ
Android

+2 ещё

Простой
Несколько вопросов по работе со сканами на андроиде?
- 4 подписчика
- 04 апр.
- 1083 просмотра
0

ответов
Распознавание текста

Средний
Существует бесплатная OCR-программа с поддержкой якутского языка?
- 2 подписчика
- 02 апр.
- 200 просмотров
1

ответ
Linux

+3 ещё

Простой
Чем распознать текст на картинках в PDF?
- 1 подписчик
- 30 мар.
- 262 просмотра
1

ответ
PDF

+1 ещё

Средний
Как выполнить конвертацию пдф изображений в текст?
- 1 подписчик
- 25 февр.
- 112 просмотров
1

ответ
Python

+3 ещё

Простой
Почему tesserat не распознает цифры? Зачеркнутый текст?
- 1 подписчик
- 08 янв.
- 100 просмотров
0

ответов
Распознавание текста

Простой
Как автоматически распознавать текст по url картинки?
- 1 подписчик
- 23 нояб. 2023
- 39 просмотров
1

ответ
МФУ

+2 ещё

Средний
Вылетает автоподатчик в Canon MF237w?
- 1 подписчик
- 09 нояб. 2023
- 211 просмотров
2

ответа
Сетевое администрирование

+2 ещё

Средний
Есть ли сервис или ПО для распознавания блок схем и диаграмм?
- 3 подписчика
- 07 нояб. 2023
- 282 просмотра
3

ответа
Распознавание текста

Простой
Tesseract или Kraken?
- 3 подписчика
- 15 окт. 2023
- 181 просмотр
1

ответ
Показать ещё Загружается…

Руководитель отдела тестирования/QA Lead

Uniscan Research • Новосибирск

от 175 000 до 210 000 ₽

Системный аналитик

ЦИФРА

До 270 000 ₽

Devops (Персона)

Сбер • Москва

от 230 000 ₽

Исправить код шахмат на С++ с использованием библиотеки winbgim

10 мая 2024, в 05:53

2000 руб./за проект

Создание короткого видео

10 мая 2024, в 03:40

1500 руб./за проект

Набор заданий по OpenGL

10 мая 2024, в 03:02

5000 руб./за проект

Answer 1 · 2020-02-10 17:41:28

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

Файнридедер
CineForms

Оба имеют sdk для корпоративных клиентов

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2020-02-11 03:09:14

Вариант1:
Расспознаем tesseract'ом в HOCR, находим в нем нужные слова и их координаты. Imagemagick'ом закрашиваем слова на сканам по координатам.
Вариант2:
Распознаем FineReader'ом, экспортируем в djvu, извлекаем из djvu текстовой слой с координатами и парсим его. Далее тоже самое с Imagemagick.
Все это можно автоматизировать скриптами.

Как автоматически из отсканированного документа убрать информацию?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт