Привет!
Мне нужно распознать текст на нескольких тысячах скриншотах. Основная проблема в том, что этот текст написан мелким пиксельным шрифтом и состоит из случайных букв (в т.ч. с диакритическими знаками), цифр, знаков пунктуации, специальных символов (из-за чего с задачей не справляются OCR-программы типа FineReader и Tesseract).
Упрощает задачу то, что текст хорошо виден, а также меня есть шрифт со всеми этими знаками.
Знаете ли вы какие-нибудь готовые решения для распознания такого текста? Как бы вы сами решили такую задачу?
Я для таких целей писал собственную распознавалку. Работала примитивно — шинковала исходное изображение на троки, строки на символы, символы распознавала путем сранения с шаблонами. Про существование готовых инструментов для подобного не слышал.
Спасибо! Я не знал, что FineReader можно обучать. Сегодня разобрался, попробовал — действительно неплохо, но пока не идеальный результат. Многие проблемы FineReader создает себе сам, хитрым образом скругляя распознанные символы. Наверное, это имеет смысл для сканнированного текста, но в случае со скриншотами, получается, например, что 5 и S становятся очень похожими, хотя в исходнике не так. Но, повторюсь, где-то 2/3 он берет весьма неплохо.
Согласен с вариантом обучения FineReader — попробуйте. Распознавал несколько сотен страниц напечатанного на печатной машинке и ксерокопированного текста в не самом лучшем состоянии так:
1. Разбил текст на «главы» в зависимости от плачевности состояния (рваные, кофе, мятые)
2. Прогонял в режиме обучения первые пару листов (занимало минут 20)
3. Прогонял распознавание
А разьве Abby fine reader и подобные программы распознования текста не помогут. Я распознавал с картинок, правда обычный крупный текст и все работало нормально.
Возможно он не берет из-за того что буквы «мелкие». Можете увеличить один из скриншотов, может быть потом еще контраст подкрутить, и скормить его файнридеру еще раз. Мне однажды помогло.