Распознавание печатной формы. Оптимальный алгоритм?

Question

vyn @vyn

Распознавание печатной формы. Оптимальный алгоритм?

Добрый день! Задача состоит в распознавании сканированной печатной формы и конвертации её к html виду. На данный момент я применяю tess4j java-форк библиотеки tesseract. Однако, возникла проблема сегментации изображения на подобласти (div регионы) с целью мак. качества распознавания. Существуют ли другие решения, оч. желатательно freeware?

Вопрос задан более трёх лет назад
293 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

Простой
Необходимость сохранения инвариантов при мат. индукции?
- 2 подписчика
- 18 дек.
- 97 просмотров
1

ответ
Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 149 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 112 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 100 просмотров
1

ответ
Математика

Простой
Правильное ли док-во существования функции?
- 1 подписчик
- 10 нояб.
- 182 просмотра
1

ответ
Математика

Простой
Почему не используется простая таблица истинности?
- 1 подписчик
- 07 нояб.
- 152 просмотра
1

ответ
Математика

Простой
Как решается такое задание?
- 1 подписчик
- 02 нояб.
- 213 просмотров
2

ответа
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 151 просмотр
1

ответ
Математика

Простой
Нужно ли это доказывать в обратную сторону?
- 1 подписчик
- 17 окт.
- 179 просмотров
1

ответ
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Answer 1 · 2017-07-26 15:51:53

По нашему опыту OCR от tesseract ужасен :) это действительно так.
По пробуйте хотя бы Google Cloud Vision API – до 1000 страниц бесплатно, и затем за каждую 1000 всего $1,5

Но лучше всего конечно же ABBYY, у него OCR лучше всех.

Вам нужно искать по теме form processing — это именно нахождение областей в документе, а не просто его распознавание.

Попробуйте поискать так:
— ocr form processing open source
— form processing java

Распознавание печатной формы. Оптимальный алгоритм?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт