Дело было давно - нужно было распознать белорусские тексты (в кирилических текстах символы i, ў), а ФайнРидер этого тогда еще не умел, но в нем есть обучение. Провел обучение на 2-х страницах, остальное он распознал сам без проблем.
Так что как-то так: берете ФайнРидер или другую распознавалку, которая есть для Линукса, обучаете вручную, а потом из командной строки натравливаете обученную распознавалку на сканы.