@Dazz1e

Распознавание сканированной копии документа на веб сайте! С чего начать?

Здравствуйте,

Задача в создании автоматизированного фильтра документов поступающих в онлайн архив.
Имеются известные бланки документов.
Каким образом при загрузке изображения (скан. копии документа) прочесть документ и если в обязательных полях ни чего не введено (даже какой либо закарючки), то документ не пропускается, если что то там есть - документ попадает в архив и создается текстовый файл (лог) в каких именно полях (включая обязательные и не обязательные) имеется информация?
Считывать текст не нужно, хотя бы убедиться что там что то есть.

Бланк:
61e544079c644c2091f16667481be528.jpg

Образец:
d35b2837997d4c6592e6bf2cc2d0382e.jpg

Прошу объяснить с чего начать для достижения цели и в каком направлении двигаться!
Заранее благодарю!
  • Вопрос задан
  • 302 просмотра
Пригласить эксперта
Ответы на вопрос 4
begemot_sun
@begemot_sun
Программист в душе.
С интеграцией с сервисами ABBY
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
1. Совмещение чистого бланка с заполненным (очистка, контраст, размер, поворот).
2. Вычитание (из заполненного бланка чистого).
3. Пересечение "островного" шаблона областей (где должны быть надписи) с результатом п.2 и выявление заполненных и не заполненных полей.
4. Профит!
Ответ написан
Комментировать
w999d
@w999d
Web-developer
OCR
Ответ написан
Комментировать
@ange007
Программист, просто программист.
Легче всего как мне кажется:
  1. Определить верх документа по 1й строке
  2. Выравнивание документа по 1й строке
  3. Определение наличия "шрифта другого цвета" ( синий, красный, зелёный ) - в определённых координатах
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы