Задать вопрос

Какой ocr для linux лучший?

Нужна ocr для наиболее точного распознавания символов на фотографиях для linux, желательно с возможностью работы из командной строки.
Пока остановился на tesseract, но погрешность довольно большая.
Finereader на windows хорошо распознаёт, но на linux платная версия с ограничениями.
  • Вопрос задан
  • 7857 просмотров
Подписаться 10 Средний 1 комментарий
Пригласить эксперта
Ответы на вопрос 4
@Xilian
Программист 1С, сетевые технологии, SQL
tesseract сильно косячит с национальными шрифтами.

попробуй Физтеховскую : https://launchpad.net/cuneiform-linux
Ответ написан
Комментировать
@krypt3r
Попробуйте перед распознаванием прогонять через scantailor.
Ответ написан
Комментировать
take
@take
я люблю любить
tesseract -- он как Linux from scratch. Мне как-то не без мучений удалось им очень неплохо распознать дореформенный текст со всеми этими i и Ъ -- ну в смысле "ятями". Ну очень неплохо. Ему надо скармливать словари и обучение ему делать. Ньюансы не помню, хотя помню хотел описать его настройку где-нибудь на Хабре. Ну уже года два как прошло... (

Еще Abby вроде как выпускала свой Finereader под Linux и даже как бы "бесплатно". Но на поверку (два года назад, почему и перешел на tesseract) много слов от этой компании -- мало free.
Ответ написан
Комментировать
@vl12
tesseract без вариантов. Все другое хуже и медленней. Но, лично я, использую FineReader 12 в виртуалке, ибо он распознает ударения и дореволюционные тексты.
Насколько помню, читал, разрабы Tesseract от Google сейчас работают над его 3-й версией. Но пока они нейросетью сделают модули распознавания рус. языка пройдет не один год.

Кстати, всякие "онлайн-сервисы распознавания" - это просто веб-интерфейсы тессеракта, реже коммерческого FR, или какой-то простой распознавалки.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы