Распознавание русского текста с отсканированных изображений, как реализовать?

Question

funkynick89 @funkynick89

Распознавание русского текста с отсканированных изображений, как реализовать?

Есть задача, распознать русский текст с отсканированных изображений/документов (*.jpg или *.pdf) и потом занести эти данные в базу.
Вопрос в следующем, кто имел опыт подобной разработки и какими средствами это лучше реализовать?

P.S. если есть библиотеки подобные под PHP, то это преимущественное решение для меня, как начинающего )
Заранее спасибо за консультации и ответы!

Вопрос задан более трёх лет назад
1389 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

5 комментариев

aol-nnov @aol-nnov

Пользователь: любезный, вы его пробовали скомпилировать самостоятельно? А байндинги к чему-нить там существуют в природе?
Я вот этими глазами (показывает коробочку с парой поврежденных глаз) лицезрел исходники его, а еще был какой-то интузиаст, то ли француз, то ли немец, который брался рефакторить ту гору кода, который авторы cuneiform-а "заопенсорсили", так он быстро сдулся, увы.
И результаты у него были неутешительные. Вот така печаль.

Написано более трёх лет назад
d'Ivan @2ord

https://github.com/thiagoalessio/tesseract-ocr-for-php

Написано более трёх лет назад
aol-nnov @aol-nnov

> cuneiform превзошел даже ABBYY FineReader Engine
может быть. но cuneiform - куча неподдерживаемого кода, в котором что-то поменять - нереально.
все алгоритмы написаны "как на фортране" и никаких комментариев.
да, как "работающий монолит", он, наверное сойдет, но развивать и встроить его себе - дохлый номер.
к тому же, вопрос байдингов для него пока остается открытым - никто ничего не предложил еще (в отличие от тессеракта.

К тому же, его, емнип, можно обучать, если уж приспичит сильно научить хорошо распознавать...

Написано более трёх лет назад
AVKor @AVKor

aol-nnov: А зачем его самостоятельно компилировать, если он есть в пакетах (в Debian есть, по крайней мере).

Написано более трёх лет назад
funkynick89 @funkynick89 Автор вопроса

в итоге решил что все-таки проще будет реализовать подобную утилиту средствами Python, пошел изучать tutorial )

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 201 просмотр
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 890 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 304 просмотра
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 363 просмотра
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 273 просмотра
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 146 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-09-15 17:29:28

tesseract есть от гугла, cuneiform там.. (хотя, последний я уже не знаю, как советовать. кажется, он давно протух)
сходу нашел байндинги к питону и джаве.

Answer 2 · 2015-09-15 17:29:45

Это точно делается никак не на php потому что операция ресурсозатратная php для этого слишком медленный.

Распознавание русского текста с отсканированных изображений, как реализовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт