Распознавание русского текста с отсканированных изображений, как реализовать?
Есть задача, распознать русский текст с отсканированных изображений/документов (*.jpg или *.pdf) и потом занести эти данные в базу.
Вопрос в следующем, кто имел опыт подобной разработки и какими средствами это лучше реализовать?
P.S. если есть библиотеки подобные под PHP, то это преимущественное решение для меня, как начинающего )
Заранее спасибо за консультации и ответы!
tesseract есть от гугла, cuneiform там.. (хотя, последний я уже не знаю, как советовать. кажется, он давно протух)
сходу нашел байндинги к питону и джаве.
Пользователь: любезный, вы его пробовали скомпилировать самостоятельно? А байндинги к чему-нить там существуют в природе?
Я вот этими глазами (показывает коробочку с парой поврежденных глаз) лицезрел исходники его, а еще был какой-то интузиаст, то ли француз, то ли немец, который брался рефакторить ту гору кода, который авторы cuneiform-а "заопенсорсили", так он быстро сдулся, увы.
И результаты у него были неутешительные. Вот така печаль.
> cuneiform превзошел даже ABBYY FineReader Engine
может быть. но cuneiform - куча неподдерживаемого кода, в котором что-то поменять - нереально.
все алгоритмы написаны "как на фортране" и никаких комментариев.
да, как "работающий монолит", он, наверное сойдет, но развивать и встроить его себе - дохлый номер.
к тому же, вопрос байдингов для него пока остается открытым - никто ничего не предложил еще (в отличие от тессеракта.
К тому же, его, емнип, можно обучать, если уж приспичит сильно научить хорошо распознавать...