Как распознавать церковнославянский язык?

Question

Максим @Quaestio

Демон? Нет - святой ツ

Распознавание текста

Как распознавать церковнославянский язык?

Попробовал распознавать с помощью Tesseract - понравилось, ИИ написал не большую программу на Python, достаточно быстро распознает. Захотелось распознать церковнославянский, а у Tesseract похоже такого языка нет. Поискал в интернете, нашел как это делается в FineReader, не понравилось, т.к. программа платная. Еще поискал, нашел на GitHub программу, от alysmirnova, но она невероятно долго распознает.

Вопрос задан более двух лет назад
1007 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

Василий Банников @vabka

Ну на вопрос "как" ты нашёл ответ сам)
Осмелюсь предположить, что альтернатив не очень много, тк задача не очень распространённая.
Если нужно оцифровать сканы, то проблема с долгое распознавание я бы не назвал большой проблемой

Написано более двух лет назад
Максим @Quaestio Автор вопроса

Василий Банников,
задача не очень распространённая
Почему? Верующих же много, книг, молитв же много.

долгое распознавание я бы не назвал большой проблемой
Почему? Я пол дня жду, когда распознает одну страницу.

Написано более двух лет назад
Василий Банников @vabka

Максим,
Почему? Верующих же много, книг, молитв же много.

1. Всё-таки на нём вроде как ничего нового не пишут => количество текстов конечное
2. Этих людей и текстов сильно меньше, чем текстов на современном русском языке.

Почему? Я пол дня жду, когда распознает одну страницу.

Распараллелил на много независимых задач и вот у тебя за 1 день целая книга распознаётся )
Ну и, думаю, можно потратить какое-то время и определить, почему медленно так распознаётся - заодно законтрибутить в открытое по)

Написано более двух лет назад
Максим @Quaestio Автор вопроса

количество текстов конечное
Не распознанных книг думаю, еще много есть.

Распараллелил на много независимых задач
Я подожду еще пару дней, потом попробую уменьшить качество картинки, у меня .PNG файл весит 2,5 Мегабайт. .PDF файл разбил при помощи Poppler.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

12 комментариев

Максим @Quaestio Автор вопроса

Мне нравится. А уже обученного церковнославянскому Tesseractа нет? Может дополнение какое-то есть или библиотека или...? Не буду ли я т.с. изобретать велосипед?

Говорят, что Tesseract это прошлый век.

Написано более двух лет назад
rPman @rPman

Да, я понимаю что на основе трансформеров эффективнее, но найти готовую нейронку под старославянский нереально.

Написано более двух лет назад

Максим @Quaestio Автор вопроса

rPman, Поможете установить Gamera?:

D:\Путь\gamera\gamera-4-master>python setup.py install

Gamera version: 4.1.0
skipping wrapper generation for arithmetic plugin (output up-to-date)
skipping wrapper generation for binarization plugin (output up-to-date)
skipping wrapper generation for color plugin (output up-to-date)
skipping wrapper generation for contour plugin (output up-to-date)
skipping wrapper generation for convolution plugin (output up-to-date)
skipping wrapper generation for corelation plugin (output up-to-date)
skipping wrapper generation for deformation plugin (output up-to-date)
skipping wrapper generation for draw plugin (output up-to-date)
skipping wrapper generation for edgedetect plugin (output up-to-date)
skipping wrapper generation for features plugin (output up-to-date)
skipping wrapper generation for fourier_features plugin (output up-to-date)
skipping wrapper generation for geometry plugin (output up-to-date)
skipping wrapper generation for gui_support plugin (output up-to-date)
skipping wrapper generation for image_conversion plugin (output up-to-date)
skipping wrapper generation for image_utilities plugin (output up-to-date)
skipping wrapper generation for listutilities plugin (output up-to-date)
skipping wrapper generation for logical plugin (output up-to-date)
skipping wrapper generation for misc_filters plugin (output up-to-date)
skipping wrapper generation for misc_free_functions plugin (output up-to-date)
skipping wrapper generation for morphology plugin (output up-to-date)
skipping wrapper generation for pagesegmentation plugin (output up-to-date)
Traceback (most recent call last):
  File "D:\Путь\gamera\gamera-4-master\setup.py", line 52, in <module>
    plugin_extensions = gamera_setup.generate_plugins(plugins, "gamera.plugins")
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\Путь\gamera\gamera-4-master\gamera\gamera_setup.py", line 104, in generate_plugins
    extension = generate.generate_plugin(
                ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\Путь\gamera\gamera-4-master\gamera\generate.py", line 328, in generate_plugin
    plugin_module = __import__(module_name)
                    ^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\Путь\gamera\gamera-4-master\gamera\generate.py", line 79, in magic_import
    return std_import(name, globals_, locals_, fromlist, level)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\Путь\gamera\gamera-4-master\gamera\plugins\png_support.py", line 78, in <module>
    class PngSupportModule(PluginModule):
  File "D:\Путь\gamera\gamera-4-master\gamera\plugins\png_support.py", line 105, in PngSupportModule
    cpp_sources = [os.path.join(internal_png_dir, x) for x in
                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\Путь\gamera\gamera-4-master\gamera\plugins\png_support.py", line 105, in <listcomp>
    cpp_sources = [os.path.join(internal_png_dir, x) for x in
                                ^^^^^^^^^^^^^^^^
NameError: name 'internal_png_dir' is not defined

Написано более двух лет назад

rPman @rPman

Там не заявлена поддержка windows (только linux и macos) поэтому усилия по портированию скорее всего будут большими и бессмысленными.

Попробуй запустить в linux используя wsl используя штатную документацию

Написано более двух лет назад

Максим @Quaestio Автор вопроса

rPman,

maxim@orangepiprime:~$ /home/maxim/.local/bin/gamera_gui
Loading GAMERA...
Use 'gamera_gui --help' to display command line options
Error: 'gamera_gui' need wxPython installed. Please install it, throw 'pip install wxPython'

Написано более двух лет назад

rPman @rPman

Максим, ответ в последней строчке pip install wxPython
так же вариант sudo apt install python3-wxgtk4.0

Написано более двух лет назад
Максим @Quaestio Автор вопроса

rPman, Как я могу показать ошибку, если Хабр не позволяет отправить больше чем 10 000 символов?

Написано более двух лет назад
rPman @rPman

pastebin или любой другой аналог

Написано более двух лет назад
Максим @Quaestio Автор вопроса
rPman,

pip install wxPython

sudo apt install python3-wxgtk4.0

/home/maxim/.local/bin/gamera_gui
Написано более двух лет назад
rPman @rPman

Максим, хм, выглядит ок, о почему запуск не работает, попробуй в гит в issues написать вопрос

Написано более двух лет назад
Максим @Quaestio Автор вопроса

rPman, Наверно потому, что Armbian, а он урезанный. Позже напишу, за 3 зайцами гоняться - плохая идея. Я сейчас с версией alysmirnova экспериментирую, подбираю качество изображения. Быть может вы встречали эту книгу, уже распознанную? Я лет пять назад, а может и больше заходил на сайт azbyka ана как была не до распознанная, так и осталась.

Написано более двух лет назад
Максим @Quaestio Автор вопроса

rPman, Отчет о проделанной работе:
Gamera - устанавливается сложно, и нужно в нее вбивать все символы - долго. Понял что не так с версией от alysmirnova, оказалось, качество менять не нужно, нужно "просто" при конвертировании в .PNG указать обрезку, рамочка в книге при распознавании, в принципе то и не нужна, но если ее вырезать - достаточно быстро распознает.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 316 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 489 просмотров
2

ответа
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 383 просмотра
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- 23 июн. 2025
- 501 просмотр
2

ответа
JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- 08 мая 2025
- 2055 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Хорошо ли распознают современные версии FineReader по сравнению со старыми?
- 1 подписчик
- более года назад
- 233 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Как добиться распознавания текста и цифр в 99,9%?
- 1 подписчик
- более года назад
- 272 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Какие есть нейросети для распознавания русского/английского?
- 5 подписчиков
- более года назад
- 1964 просмотра
1

ответ
Искусственный интеллект

+1 ещё

Простой
Какая нейросеть лучше подойдёт для распознавания слов из mp3?
- 3 подписчика
- более двух лет назад
- 720 просмотров
1

ответ
Распознавание текста

Средний
Существует бесплатная OCR-программа с поддержкой якутского языка?
- 2 подписчика
- более двух лет назад
- 331 просмотр
1

ответ
Показать ещё Загружается…

Руководитель IT / Head of IT

Сигма • Волгоград

от 160 000 до 200 000 ₽

Менеджер по качеству (эквайринг, терминалы, ККТ, банкоматы, АДМ)

ИТ-Холдинг Т1 • Санкт-Петербург

До 130 000 ₽

Выездной инженер технической поддержки

ИТ-Холдинг Т1 • Великий Новгород

от 70 000 до 70 000 ₽

Ну на вопрос "как" ты нашёл ответ сам)
Осмелюсь предположить, что альтернатив не очень много, тк задача не очень распространённая.
Если нужно оцифровать сканы, то проблема с долгое распознавание я бы не назвал большой проблемой
Василий Банников,
задача не очень распространённая
Почему? Верующих же много, книг, молитв же много.

долгое распознавание я бы не назвал большой проблемой
Почему? Я пол дня жду, когда распознает одну страницу.
Максим,
Почему? Верующих же много, книг, молитв же много.

1. Всё-таки на нём вроде как ничего нового не пишут => количество текстов конечное
2. Этих людей и текстов сильно меньше, чем текстов на современном русском языке.

Почему? Я пол дня жду, когда распознает одну страницу.

Распараллелил на много независимых задач и вот у тебя за 1 день целая книга распознаётся )
Ну и, думаю, можно потратить какое-то время и определить, почему медленно так распознаётся - заодно законтрибутить в открытое по)
количество текстов конечное
Не распознанных книг думаю, еще много есть.

Распараллелил на много независимых задач
Я подожду еще пару дней, потом попробую уменьшить качество картинки, у меня .PNG файл весит 2,5 Мегабайт. .PDF файл разбил при помощи Poppler.

Answer 1 · 2023-09-19 12:34:23

Tesseract это программа, которую можно до обучить на своих текстах для лучшего распознавания необычных шрифтов или языка (первый же ответ из гугла на русском)

p.s. в этом вопросе предложили специализированный софт gamera с gui для интерактивного обучения под неизвестные языки

Как распознавать церковнославянский язык?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт