Стала задача Парсинга японских сертификатов на экспорт автомобилей, а именно - необходимо вытаскивать с документов в формате .pdf - вин номер авто и его габариты. Сначала пытался реализовать данную задачу с помощью Tesseract, но в конечном итоге - отказался от него в пользу EasyOCR.
В общем, так как документ большой 2700 х 1900 , и нам не важно его содержимое, по мимо 5 ячеек в таблице - я подобрал +- координаты областей, в которых расположен необходимый текст. Путем ловких манипуляций, обрезки, финальной подгонки и регулировки яркости и контрастности - получилось.
Но, после пошли в ход - черно-белые сканы, с большим количеством шумов. После обрезки по необходимым областям, картинка была следующая:
Как победить эти шумы? Есть ли аналоги EasyOCR, которые будут читать текст не смотря на этот шум.