Как правильно очистить картинку с текстом от шума для использования ее в Tesseract OCR?
Суть вопроса вот в чем. Имеется бинарная картинка (гос. номер автомобиля). Картинка передается далее в tesseract API для распознавания текста. Если шумов нет, то все работает нормально — текст распознается. Однако, в реальности всегда присутствуют пятна на изображении. Размытие Гаусса и операции морфологии уже применены, мелкие детали отфильтрованы. Но остается несколько пятен, которые приводят к неверному результату при распознавании символов. Может быть есть возможность как то настроить tesseract? Я использую все настройки по умолчанию. По идее необходимо выделить связные области на автономере и отфильтровать те, которые имеют заведомо малую площадь. Но как это быстро сделать с помощью opencv, я не знаю. Спасибо.
Add
Если кому-нибудь будет интересно, то эту задачу можно решить так.
Применить оператор Кэнни к изображению автомобильного номера, при этом искать лишь внешние контуры
Затем отфильтровать полученные контуры по размеру, вырезать их и распознавать каждый символ отдельно.
Производительность при этом почти не падает.
Пытаюсь заняться похожим, необходимо распознать на квитанциях номера. При распознавании есть проблемы — мешаются мелкие детали по краям. Но поскольку далек от обработки изображений, не пойму фразы «отфильтровать полученные контуры по размеру, вырезать». Это выполняется с помощью opencv? Не подскажите где можно глянуть как это делается?
«Это выполняется с помощью opencv? Не подскажите где можно глянуть как это делается? »
Да, это можно сделать с помощью opencv
Я на IBM DW статью накатал с примерами кода если интересно — стучите ссылку дам в личку