d43
@d43

Распознать текст на скриншотах

Привет!
Мне нужно распознать текст на нескольких тысячах скриншотах. Основная проблема в том, что этот текст написан мелким пиксельным шрифтом и состоит из случайных букв (в т.ч. с диакритическими знаками), цифр, знаков пунктуации, специальных символов (из-за чего с задачей не справляются OCR-программы типа FineReader и Tesseract).

Упрощает задачу то, что текст хорошо виден, а также меня есть шрифт со всеми этими знаками.

Знаете ли вы какие-нибудь готовые решения для распознания такого текста? Как бы вы сами решили такую задачу?

Спасибо!
  • Вопрос задан
  • 17937 просмотров
Пригласить эксперта
Ответы на вопрос 8
ipswitch
@ipswitch
IT-инженер
Утиль специально для этой цели. Староват, но в своё время никто лучше него с этой проблемой не справлялся.
www.structurise.com/kleptomania/russian.shtml
Ответ написан
pietrovich
@pietrovich
Я для таких целей писал собственную распознавалку. Работала примитивно — шинковала исходное изображение на троки, строки на символы, символы распознавала путем сранения с шаблонами. Про существование готовых инструментов для подобного не слышал.
Ответ написан
Комментировать
@JoeyHere
Можно попробовать через OneNote прогнать, правда, за спецсимволы не ручаюсь.
Ответ написан
Комментировать
osby
@osby
FineReader вроде бы обучать можно.
Ответ написан
Ordenador
@Ordenador
Согласен с вариантом обучения FineReader — попробуйте. Распознавал несколько сотен страниц напечатанного на печатной машинке и ксерокопированного текста в не самом лучшем состоянии так:
1. Разбил текст на «главы» в зависимости от плачевности состояния (рваные, кофе, мятые)
2. Прогонял в режиме обучения первые пару листов (занимало минут 20)
3. Прогонял распознавание
Ответ написан
Комментировать
mesline
@mesline
А разьве Abby fine reader и подобные программы распознования текста не помогут. Я распознавал с картинок, правда обычный крупный текст и все работало нормально.
Ответ написан
belk
@belk
Есть ABBYY Screenshot Reader, он специально для таких дел.
Ответ написан
Комментировать
Damaskus
@Damaskus
Tesseract можно использовать, у него есть режим обучения.
Натаскать на нужный набор символов его не так уж проблематично.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы