Задать вопрос
@immelnikoff
Изучаю БД

Как в pytesseract дополнить алфавит распознавания нужными символами из другого языка?

Поставил движок Tesseract-OCR, затем поставил пакет-врапер pytesseract на Python 3.6.
Распознаю русский текст:
text = pytesseract.image_to_string(Image.open(filename), lang='rus')

Русский текст распознается без проблем. Однако в тексте помимо русских букв встречаются ещё две буквы из английского алфавита: N и E. Как указать скрипту, что в тексте помимо русских букв могут быть ещё две данные буквы из английского алфавита? Или может быть можно самому задать свой набор символов.
И ещё вопрос. Как движку указать шрифт?
  • Вопрос задан
  • 11382 просмотра
Подписаться 1 Средний Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Fullstack-разработчик на Python + нейросети
    20 месяцев
    Далее
  • Skillfactory
    Профессия Python-разработчик
    9 месяцев
    Далее
  • SF Education
    Бэкенд-разработчик на Python
    3 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
по простому
lang="rus+eng"
только не офигевай с результатов ))

по сложному - лепить свою обучающую
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы