@DmitryKyd
Студент специальности ИАСБ

Почему pytesseract не распознает цифры?

Здравствуйте!

Пытаюсь написать скрипт, который бы мог распознавать цифры с картинки.
Все подготовительные этапы с картинкой сделал. Осталось самое главное, распознавание и тут проблема...
При попытках дать Tesseract'у картинку с текстом, он её распознает, но если дать ему картинку с цифрами - он ничего не выводит.

Вот пример картинки с цифрами:
5cd7e1b453232179141212.png

Сам код:
from PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

image = Image.open("D:\test.png")
text = pytesseract.image_to_string(image, lang='eng')
print(text)


Заранее благодарю за помощь.
  • Вопрос задан
  • 3106 просмотров
Решения вопроса 1
@DmitryKyd Автор вопроса
Студент специальности ИАСБ
Сам вопрос задал, сам отвечу)

Проблема была в полученной картинке, её формат не принимал tessaract. Поменяв метод сохранения картинки, получилось добиться распознавания.

Теперь другой вопрос, как указать tessaract'у распозновать только цифры. В интернете находил решение через config и в нем указывать whitelist.
text = pytesseract.image_to_string(new_image, lang='eng', config='--psm 6 -c tessedit_char_whitelist=0123456789')

Но он почему-то не работает. Всё равно периодически выскакивают буквы.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы