OCR библиотеки под C#?

Question

BadCats @BadCats

OCR библиотеки под C#?

Пробовал IronOCR и Tesseract OCR ( обёртка под .NET). В Tesseract пробовал разные режимы фрагментации страницы - результат плохой - мусор или часть текста и мусор. На вход подаётся бинаризирование ( Ч/Б ) изображение документа. На фото не только текст - ещё мусор в виде фотографии и подписи человека, но его постараюсь устранить. Ещё одна трудность - на изображении несколько языков одновременно - русский и английский или английский и фарси ( арабский). Пока что пытаюсь разобраться с русским и английским - хотя бы.Есть ли ещё библиотеки/альтернативы - вышеуказанным?

Вопрос задан более трёх лет назад
364 просмотра

5 комментариев

Подписаться 2 Средний 5 комментариев

ayazer @ayazer

лет 7-8 назад работал с nuance ocr. там была возможность разделить документ на блоки, и дальше каждый блок распознавать в зависимости от его типа (тест/изображение/етц). В итоге для документов сначала мышкой накидывались области распознавания, а потом батчем все прогонялось через ocr.

Написано более трёх лет назад
freeExec @freeExec

подаётся бинаризирование ( Ч/Б ) изображение документа

Для лучшего эффекта нужно в оттенках серого, а не тупо ЧБ.

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

Разве? Я думал, что бинаризрованое изображение наоборот лучше - т.к есть четкий переход между контурами - от 0 до 255 - т.е только два пороговых значения, что облегчает поиск конутра/символа?

Написано более трёх лет назад
freeExec @freeExec

BadCats, В итоге у тебя незначительный шум превращается в значительный.

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

freeExec, Не совсем понял ( ну, буквально проблему понял, но не понимаю почему), я так понимаю, нужно подтянуть знания в ЦОС ( соотношение сигнал/шум ) ? Если да, то не могли бы Вы посоветовать что почитать. Т.к до этого вообще с этой областью не работал - ни с ЦОС, ни с изображениями, ни с OCR - начал читать Гонсалеса и Вудса - " цифровая обработка изображений" - делал по ней фильтры изображений ( что то руками писал, что то - ро библиотекам, но смотрел что вообще за фильтры бывают, (Собела,Гауса, частичная фильтрация и т.д) какие эффекты дают). Спасибо.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Ulearn.me

Основы программирования на примере C#. Часть 2

1 неделя

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 78 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 276 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 54 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 92 просмотра
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 281 просмотр
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 131 просмотр
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 124 просмотра
1

ответ
C#

+1 ещё

Простой
Как в EF Core 9 произвести поиск совпадений на русском и без учета регистра?
- 1 подписчик
- 01 окт.
- 115 просмотров
0

ответов
C#

+2 ещё

Средний
Как включить множество опций публикации в Visual Studio 2022?
- 1 подписчик
- 30 сент.
- 73 просмотра
1

ответ
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент.
- 338 просмотров
1

ответ
Показать ещё Загружается…

Разработчик C#

Abc staff • Москва

До 220 000 ₽

Fullstack тестировщик C#

ITFB Group • Москва

от 200 000 до 300 000 ₽

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

лет 7-8 назад работал с nuance ocr. там была возможность разделить документ на блоки, и дальше каждый блок распознавать в зависимости от его типа (тест/изображение/етц). В итоге для документов сначала мышкой накидывались области распознавания, а потом батчем все прогонялось через ocr.
подаётся бинаризирование ( Ч/Б ) изображение документа

Для лучшего эффекта нужно в оттенках серого, а не тупо ЧБ.
Разве? Я думал, что бинаризрованое изображение наоборот лучше - т.к есть четкий переход между контурами - от 0 до 255 - т.е только два пороговых значения, что облегчает поиск конутра/символа?
BadCats, В итоге у тебя незначительный шум превращается в значительный.
freeExec, Не совсем понял ( ну, буквально проблему понял, но не понимаю почему), я так понимаю, нужно подтянуть знания в ЦОС ( соотношение сигнал/шум ) ? Если да, то не могли бы Вы посоветовать что почитать. Т.к до этого вообще с этой областью не работал - ни с ЦОС, ни с изображениями, ни с OCR - начал читать Гонсалеса и Вудса - " цифровая обработка изображений" - делал по ней фильтры изображений ( что то руками писал, что то - ро библиотекам, но смотрел что вообще за фильтры бывают, (Собела,Гауса, частичная фильтрация и т.д) какие эффекты дают). Спасибо.

OCR библиотеки под C#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт