Как улучшить код получения текста с картинки?

Question

fantom_ask @fantom_ask

Python

Как улучшить код получения текста с картинки?

Как улучшить код получения текста с картинки?
У меня есть вот такой код

from PIL import Image
import pytesseract
import cv2
import os

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

base_dir = os.path.dirname(os.path.abspath(__file__))
image = base_dir + r'\tmp\test.PNG'
d = Image.open(image)
preprocess = "thresh"

# загрузить образ и преобразовать его в оттенки серого
image = cv2.imread(image)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# проверьте, следует ли применять пороговое значение для предварительной обработки изображения

if preprocess == "thresh":
    gray = cv2.threshold(gray, 0, 255,
        cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

# если нужно медианное размытие, чтобы удалить шум
elif preprocess == "blur":
    gray = cv2.medianBlur(gray, 3)

# сохраним временную картинку в оттенках серого, чтобы можно было применить к ней OCR
filename_dir = base_dir +"\gray\{}.png".format(os.getpid())
cv2.imwrite(filename_dir, gray)

# загрузка изображения в виде объекта image Pillow, применение OCR, а затем удаление временного файла
text = pytesseract.image_to_string(Image.open(filename_dir))
print(text)
os.remove(filename_dir)

# показать выходные изображения
cv2.imshow("Image", image)
cv2.imshow("Output", gray)

Я хочу что бы он лучше распознавал текст с картинки
вот пример

gray

Text

fright, tine to put the old girl to work.

When you'll step off the Blue Liner onto the island of Cloverton, your new life will begin.

O Bone Dig
23 - 59 (63)

ME ero rpart

toc mary

v fits te arg Saahe any Mn fof
Poth

Как мне это сделать?

Вопрос задан более трёх лет назад
3074 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 200 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 526 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 487 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 501 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-09-04 00:23:06

Думаю вы так хотели ?

Конечно не 100% результат, но вы с настройками можете поиграться

import cv2
import pytesseract

def text(img, size, chan):
    pytesseract.pytesseract.tesseract_cmd = r'Tesseract-OCR\tesseract.exe'
    scale_percent = int(size)# Процент от изначального размера
    image = cv2.imread(img)
    width = int(image.shape[1] * scale_percent / 100)
    height = int(image.shape[0] * scale_percent / 100)
    dim = (width, height)
    resized = cv2.resize(image, dim, interpolation = cv2.INTER_AREA)
    gray = cv2.cvtColor(resized, cv2.COLOR_BGR2GRAY)        #
    ret, threshold_image = cv2.threshold(gray, chan, 150, 1, cv2.THRESH_BINARY)
    text = pytesseract.image_to_string(threshold_image, config='--psm 11')
    # cv2.imshow("123", threshold_image)
    # cv2.waitKey(0)
    return text

text1 = text("1.png", 350, 150)
print(text1,"\n\n")

text2 = text("2.png", 350, 30)
print(text2,"\n\n")

text3 = text("3.png", 350, 160)
print(text3,"\n\n")

Answer 2 · 2020-09-03 22:16:24

Предобработка изображений с CV очень важна.
Есть много разных фокусов, вот например https://stackoverflow.com/questions/39233823/openc... ну и других много разных.
Вот здесь пишут что качество распознавания зависит от ширины буквы в пикселях: https://groups.google.com/forum/#!msg/tesseract-oc...
Это к вопросу о дпи.
3. тесеракту можно передавать его тессерактовы параметры, например:
conf = u"--psm 11"
text = TS.image_to_string(Image.open('1111.jpg'), config=conf)
psm - Режимы сегментации страницы:
0 Только ориентация и обнаружение скриптом (OSD).
1 Автоматическая сегментация страницы с OSD.
2 Автоматическая сегментация страницы но без OSD или OCR.
3 Полностью автоматическая сегментация страницы, но без OSD. (По умолчанию)
4 Предполагается единичная колонка текста переменной длины.
5 Предполагается единый унифицированный блок вертикально выравненного текста.
6 Предполагается единый унифицированный блок текста.
7 Обрабатывать изображение как единичную текстовую строку.
8 Обрабатывать изображение как единичное слово.
9 Обрабатывать изображение как единичное слово в круге.
10 Обрабатывать изображение как единичный символ.
11 Разреженный текст. Найти столько текста, сколько возможно без особого порядка.
12 Разреженный текст с OSD.
13 Сырая строка. Обрабатывать изображение как единичную текстовую строку, обход специфичных для Tesseract хаков.

Идеально точного результата не будет никогда, только больше ошибок или меньше ошибок.

Answer 3 · 2020-09-03 20:35:55

Увеличить разрешение текста до 150...300 dpi.
тессеракт достаточно тупая система - чем больше точек приходится на букву тем лучше.

на ваших образцах в лучшем случае 75dpi - это очень мало.

Как улучшить код получения текста с картинки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт