Какие способы есть подготовки изображения к дальнейшему распознаванию текста с помощью Python?

Question

glu-dimaz @glu-dimaz

Python

Какие способы есть подготовки изображения к дальнейшему распознаванию текста с помощью Python?

Задача состоит в следующем. Есть сертификат на экспорт автомобиля из Японии. Из него необходимо достать определенные значения(выделил зеленым на изображении):

Это обычные сканы документов или просто картинки объединённые в .pdf формат, текст в которых - не определен(если открыть в каком-нибудь pdf редакторе).

Чтобы не мучаться с чтением всего документа, а потом выделением из него необходимых значений - я решил поступить наоборот - сначала выделить в документе +- необходимую область для распознавания. Наложив, 10 документов друг на друга в фотошопе, я нашел примерные координаты необходимых блоков для обрезки оригинального изображения и с помощью функции crop - обрезал изображения по примерным точкам.
image.crop(cpor_cords)

После чего, добавив яркости и контрастности, а так же - применив черно-белый фильтр - я обработал изображения. Далее подключил EasyOCR для распознавания текста на картинке. Результат, мягко сказать - был не очень. Из 20 документов - верно определялось 2-3 штуки. Попробовал ручками - убрать все на изображении кроме текста(границы ячеек, вводные знаки и т.д.) - тогда результат был куда лучше. Тогда уже решил провести следующую процедуру: обрезать обрезанные изображения:

width, height = final_image.size
pixel_data = []

for y in range(height):
        for x in range(width):
            color = pixels[x, y]
            pixel_data.append((x, y, color))

x1 = None
x2 = None
y1 = None
y2 = None

for pixel in pixel_data:
        x, y = pixel[0], pixel[1]
        r, g, b = pixel[2][:3]
        
        if y == 2 and r < 200 and g < 200 and b < 200:
            print(x)
            if x1 is None:
                #print(x,y,r,g,b)
                x1 = x
            x2 = x
        if type != 'serial':
            if x == 9:
                if r != 255 and g != 255 and b != 255:
                    if y1 is None:
                        y1 = y
                    y2 = y
        if type == 'serial':
            if x == 100:
                if r != 255 and g != 255 and b != 255:
                    if y1 is None:
                        y1 = y
            if x == 900:
                if r != 255 and g != 255 and b != 255:
                    y2 = y
  
if type != 'serial':
       x2 -= 23
       x1 += 20
   
crop_final = x1, y1, x2, y2
print('Croped: ',crop_final)

image2 = Image.open('final_output_' + str(type) + '.png')
cropped_image = image2.crop(crop_final)

То есть, логика была следующая: открываем изображение и разбираем его по пикселям и цветам в нем.
Проходимся по ширине в 9 пикселей. Если у нас не задана y1, а цвет в данной точки не белый - то y1 равно данным координатам. Последняя точка y2 - последняя точка на данной ширине, которая не равна цвету 255,255,255. Для серийного номера брал 2 точки x - это на 100 пикселе и на 900-м

Тут я уже столкнулся с другой проблемой: Либо неопределенна координаты y2 или вообще некорректно. Зачастую, в необходимых областях - по мимо границы ячейки - находился либо текст с других ячеек - либо не было ничего и y2 = ширине изображения. Менял точки прохода: х = 12,15,20 и т.д. - так как это сканы, где то документ положили к верхнему правому углу сканера, где то к нижнему левому, а где то вовсе наклон 5*. Тогда решил поменять алгоритм - так как серийники +- обрезались ровно и документы имели четко один и тот же размер - я решил использовать точку G. Я искал точку отсчета - верхний левый угол ячейки серийного номера. И если мы знаем данную точку - мы рассчитываем от нее уже расстояния до других ячеек по пикселям. Но кривые обрезки все равно достаточно часто проскакивали - либо точка G находилась чуть выше границы ячейки таблицы, или чуть ниже границы.

В общем. Неделю ковырял - не знаю что уже можно придумать? Есть ли какие-нибудь альтернативы, чтобы необходимые области обрезались как надо? В идеале - если на изображение применен фильтр, яркость и контрастность - в 95% текст читается корректно - а этого более чем достаточно.

Вопрос задан 06 окт. 2024
127 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Решения вопроса 1

4 комментария

glu-dimaz @glu-dimaz Автор вопроса

Можно по подробнее?

Написано 06 окт. 2024
Vindicar @Vindicar

glu-dimaz, connectedComponentsWithStats() обрабатывает бинарное черно-белое изображение и находит в нём изолированные белые "пятна" (блобы), после чего создаёт карту, на которой каждый независимый блоб имеет свою метку (значение пикселей). Для каждого блоба возвращается его метка, его ограничивающий прямоугольник, его площадь и координаты центроида (точки внутри блоба).
Соотв. можешь ориентироваться на высоту ограничивающего прямоугольника - если масштаб скана более-менее одинаков, то все блобы-символы должны быть примерно одной и той же высоты.
Выбрав из массива блобы-символы, перекопируешь их на новое изображение, и уже его распознаёшь.

Написано 06 окт. 2024
glu-dimaz @glu-dimaz Автор вопроса

Vindicar, хорошо. попробую завтра - если получится - дам знать . Спасибо

Написано 06 окт. 2024
glu-dimaz @glu-dimaz Автор вопроса

Ну в общем, удовлетворительно. Осталось победить черно-белые сканы, в плохом качестве. По этому в любом случае, +1. Спасибо за помощь

Написано 07 окт. 2024

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как цикл for влияет на формирования списка?
- 1 подписчик
- 19 часов назад
- 77 просмотров
1

ответ
Python

Простой
Как проверять кодом наличие конкретно той или иной библиотеки?
- 2 подписчика
- вчера
- 250 просмотров
2

ответа
Python

+1 ещё

Средний
Как избавится от эффекта бандинга/постеризации градиента?
- 1 подписчик
- вчера
- 114 просмотров
2

ответа
Python

+1 ещё

Простой
В чем ошибка при парсинге на python?
- 1 подписчик
- 11 мар.
- 194 просмотра
2

ответа
Python

+2 ещё

Средний
Почему не все упоминания юзеров Telegram кликабельны?
- 1 подписчик
- 10 мар.
- 490 просмотров
2

ответа
Python

+2 ещё

Простой
Как анализировать востребованность технологии?
- 1 подписчик
- 10 мар.
- 125 просмотров
1

ответ
Python

Простой
Есть ли в питоне файл проекта?
- 1 подписчик
- 10 мар.
- 201 просмотр
2

ответа
Python

+1 ещё

Средний
Как выполнить Olx парсинг номера?
- 3 подписчика
- 08 мар.
- 770 просмотров
2

ответа
Python

+1 ещё

Средний
Как интегрировать python код в tauri?
- 1 подписчик
- 08 мар.
- 139 просмотров
2

ответа
Python

+1 ещё

Средний
Playwright Python, работа с профилями браузеров?
- 1 подписчик
- 08 мар.
- 78 просмотров
1

ответ
Показать ещё Загружается…

Старший Python разработчик/Senior Python developer

Платежное решение • Москва

До 300 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Руководитель группы разработки Python/Tech Lead Python

Платежное решение • Москва

До 500 000 ₽

попробуйте
1. Tesseract,
для тессеракта надо готовить изображение и подстроить сам тессеракт,
это гуглится
2. PaddleOCR - китайская распозновалка, https://github.com/PaddlePaddle/PaddleOCR/blob/mai...
неплохая, может выдавать би-боксы , то есть координаты прямоугольников
ограничивающих распознанный текст
https://habr.com/ru/companies/jetinfosystems/artic...

PaddleOCR результаты

рис.1

рис.2

рис.3

рис.4

P.S. C помощью img2table https://pypi.org/project/img2table/
вашу таблицу можно раздербанить на ячейки

рис.5

P.P.S. Замечу, что это результаты, без предобработки,
с предобработкой возможно получить получше.

Answer 1 · 2024-10-06 09:23:44

Используйте библиотеку OpenCV и функцию cv2.connectedComponentsWithStats. Отфильтруйте компоненты по высоте. Всё.

Какие способы есть подготовки изображения к дальнейшему распознаванию текста с помощью Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт