@glu-dimaz

Как обработать изображение к EasyOCR и удалить на нем шумы, python?

Стала задача Парсинга японских сертификатов на экспорт автомобилей, а именно - необходимо вытаскивать с документов в формате .pdf - вин номер авто и его габариты. Сначала пытался реализовать данную задачу с помощью Tesseract, но в конечном итоге - отказался от него в пользу EasyOCR.

В общем, так как документ большой 2700 х 1900 , и нам не важно его содержимое, по мимо 5 ячеек в таблице - я подобрал +- координаты областей, в которых расположен необходимый текст. Путем ловких манипуляций, обрезки, финальной подгонки и регулировки яркости и контрастности - получилось.

Но, после пошли в ход - черно-белые сканы, с большим количеством шумов. После обрезки по необходимым областям, картинка была следующая:
66ff2697b14ba302862306.jpeg
66ff26a296334229107659.jpeg

Как победить эти шумы? Есть ли аналоги EasyOCR, которые будут читать текст не смотря на этот шум.
  • Вопрос задан
  • 67 просмотров
Пригласить эксперта
Ответы на вопрос 1
Steel_Balls
@Steel_Balls
0L3QsNGH0LjQvdCw0Lsg0YEgQkFTSUMg0L3QsCDQo9Ca0J3Qpi
Устранение шумов можно попробовать вариацией применения нескольких фильтров: Превитта, Собеля, Лапласа, Гаусса, эрозией/диляцией. Так же можно попробовать FFT (Быстрое Фурье Преобразование).
Довольно мощный опенсорсный OCR - TesseractOCR https://github.com/tesseract-ocr/tesseract
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы