Как исправить ошибку при выполнении кода с Tesseract-OCR (не видит русский язык)?

Question

Oboymochka @Oboymochka

Как исправить ошибку при выполнении кода с Tesseract-OCR (не видит русский язык)?

понадобилось извлечь текст из изображений (на русском языке). Вроде бы сделала все верно, но возникает ошибка при запуске. Никак не могу понять что сделала не так:

код

import pytesseract
from PIL import Image
import os

# Укажите полный путь к Tesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Установите TESSDATA_PREFIX
os.environ['TESSDATA_PREFIX'] = r'C:\Program Files\Tesseract-OCR'

# Укажите путь к папке с изображениями
image_folder = r"D:\Новая папка\PythonProject1\.venv\frames\input_video1"
output_file = r"D:\Новая папка\PythonProject1\output.txt"

# Открываем файл для записи
with open(output_file, 'w', encoding='utf-8') as f:
    for filename in os.listdir(image_folder):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            img_path = os.path.join(image_folder, filename)
            if not os.path.exists(img_path):
                print(f"Файл не найден: {img_path}")
                continue
            try:
                img = Image.open(img_path)
                text = pytesseract.image_to_string(img, lang='rus')
                if text.strip():  # Проверка, что текст не пустой
                    f.write(text + '\n')
                else:
                    print(f"Текст не извлечен из {filename}")
                print(f"Текст извлечен из {filename}")
            except pytesseract.pytesseract.TesseractError as e:
                print(f"Ошибка Tesseract при обработке {filename}: {e}")
            except Exception as e:
                print(f"Ошибка при обработке {filename}: {e}")

print("Текст успешно извлечен и сохранен в", output_file)

Текст ошибки:

Ошибка Tesseract при обработке output_0028.png: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR/rus.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'rus\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

И так с каждым файлом. TESSDATA_PREFIX в среде есть. Файл с языком есть (установила все языки). Не понимаю что не так, помогите,пожалуйста.(

Вопрос задан более года назад
534 просмотра

3 комментария

Подписаться 1 Простой 3 комментария

kisaa @kisaa
А попробуйте поменять значение:

os.environ['TESSDATA_PREFIX'] = r'C:\Program Files\Tesseract-OCR\tessdata'
Написано более года назад
Oboymochka @Oboymochka Автор вопроса

kisaa, всё было так просто, что даже стыдно. Сразу всё заработало. Спасибо большое!

Написано более года назад
dim5x @dim5x

kisaa, может быть, вам оформить комментарий как ответ, а Oboymochka отметит потом его как решение, чтобы вопрос не висел не отвеченным?

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 часа назад
- 95 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 91 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 102 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 349 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 668 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 569 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

А попробуйте поменять значение:

os.environ['TESSDATA_PREFIX'] = r'C:\Program Files\Tesseract-OCR\tessdata'
kisaa, всё было так просто, что даже стыдно. Сразу всё заработало. Спасибо большое!
kisaa, может быть, вам оформить комментарий как ответ, а Oboymochka отметит потом его как решение, чтобы вопрос не висел не отвеченным?

Answer 1 · 2025-02-04 02:53:34

C:\\Program Files\\Tesseract-OCR/rus.traineddata
Указано в ошибке, а у вас в проводнике:
C:\\Program Files\\Tesseract-OCR/tessdata/rus.traineddata

Лучше ипользовать EasyOCR, куда более эффективен при машинном зрении, но требует значительной обработки изображения перед чтением и не любит шумы. Писал ПО для чтения вин-номеров авто с японских сертификатов на экспорт. Сначала пользовался Tesseract, потом перешел на EasyOCR:
Вот последние результаты чтения:

[03.02.2025 / 16:31:55] Task " is completed. Result: 31/35. User is: 1369
[03.02.2025 / 14:14:47] Task " is completed. Result: 14/17. User is: 1322
[31.01.2025 / 16:27:18] Task " is completed. Result: 22/25. User is: 1322
[31.01.2025 / 16:01:32] Task " is completed. Result: 9/9. User is: 1369
[30.01.2025 / 15:52:53] Task " is completed. Result: 45/58. User is: 1369
[29.01.2025 / 15:12:49] Task " is completed. Result: 40/44. User is: 1369

70%+ точного определения текста с изображений

Как исправить ошибку при выполнении кода с Tesseract-OCR (не видит русский язык)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт