d43
@d43

Распознать текст на скриншотах

Привет!
Мне нужно распознать текст на нескольких тысячах скриншотах. Основная проблема в том, что этот текст написан мелким пиксельным шрифтом и состоит из случайных букв (в т.ч. с диакритическими знаками), цифр, знаков пунктуации, специальных символов (из-за чего с задачей не справляются OCR-программы типа FineReader и Tesseract).

Упрощает задачу то, что текст хорошо виден, а также меня есть шрифт со всеми этими знаками.

Знаете ли вы какие-нибудь готовые решения для распознания такого текста? Как бы вы сами решили такую задачу?

Спасибо!
  • Вопрос задан
  • 17861 просмотр
Пригласить эксперта
Ответы на вопрос 8
ipswitch
@ipswitch
IT-инженер
Утиль специально для этой цели. Староват, но в своё время никто лучше него с этой проблемой не справлялся.
www.structurise.com/kleptomania/russian.shtml
Ответ написан
pietrovich
@pietrovich
Я для таких целей писал собственную распознавалку. Работала примитивно — шинковала исходное изображение на троки, строки на символы, символы распознавала путем сранения с шаблонами. Про существование готовых инструментов для подобного не слышал.
Ответ написан
Комментировать
@JoeyHere
Можно попробовать через OneNote прогнать, правда, за спецсимволы не ручаюсь.
Ответ написан
Комментировать
osby
@osby
FineReader вроде бы обучать можно.
Ответ написан
Ordenador
@Ordenador
Согласен с вариантом обучения FineReader — попробуйте. Распознавал несколько сотен страниц напечатанного на печатной машинке и ксерокопированного текста в не самом лучшем состоянии так:
1. Разбил текст на «главы» в зависимости от плачевности состояния (рваные, кофе, мятые)
2. Прогонял в режиме обучения первые пару листов (занимало минут 20)
3. Прогонял распознавание
Ответ написан
Комментировать
mesline
@mesline
А разьве Abby fine reader и подобные программы распознования текста не помогут. Я распознавал с картинок, правда обычный крупный текст и все работало нормально.
Ответ написан
belk
@belk
Есть ABBYY Screenshot Reader, он специально для таких дел.
Ответ написан
Комментировать
Damaskus
@Damaskus
Tesseract можно использовать, у него есть режим обучения.
Натаскать на нужный набор символов его не так уж проблематично.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы