Попробовал распознавать с помощью Tesseract - понравилось, ИИ написал не большую программу на Python, достаточно быстро распознает. Захотелось распознать церковнославянский, а у Tesseract похоже такого языка нет. Поискал в интернете, нашел как это делается в FineReader, не понравилось, т.к. программа платная. Еще поискал, нашел на GitHub программу, от alysmirnova, но она невероятно долго распознает.
Ну на вопрос "как" ты нашёл ответ сам)
Осмелюсь предположить, что альтернатив не очень много, тк задача не очень распространённая.
Если нужно оцифровать сканы, то проблема с долгое распознавание я бы не назвал большой проблемой
1. Всё-таки на нём вроде как ничего нового не пишут => количество текстов конечное
2. Этих людей и текстов сильно меньше, чем текстов на современном русском языке.
Почему? Я пол дня жду, когда распознает одну страницу.
Распараллелил на много независимых задач и вот у тебя за 1 день целая книга распознаётся )
Ну и, думаю, можно потратить какое-то время и определить, почему медленно так распознаётся - заодно законтрибутить в открытое по)
Tesseract это программа, которую можно до обучить на своих текстах для лучшего распознавания необычных шрифтов или языка (первый же ответ из гугла на русском)
p.s. в этом вопросе предложили специализированный софт gamera с gui для интерактивного обучения под неизвестные языки
Мне нравится. А уже обученного церковнославянскому Tesseractа нет? Может дополнение какое-то есть или библиотека или...? Не буду ли я т.с. изобретать велосипед?
rPman, Наверно потому, что Armbian, а он урезанный. Позже напишу, за 3 зайцами гоняться - плохая идея. Я сейчас с версией alysmirnova экспериментирую, подбираю качество изображения. Быть может вы встречали эту книгу, уже распознанную? Я лет пять назад, а может и больше заходил на сайт azbyka ана как была не до распознанная, так и осталась.
rPman, Отчет о проделанной работе:
Gamera - устанавливается сложно, и нужно в нее вбивать все символы - долго. Понял что не так с версией от alysmirnova, оказалось, качество менять не нужно, нужно "просто" при конвертировании в .PNG указать обрезку, рамочка в книге при распознавании, в принципе то и не нужна, но если ее вырезать - достаточно быстро распознает.