Согласен с вариантом обучения FineReader — попробуйте. Распознавал несколько сотен страниц напечатанного на печатной машинке и ксерокопированного текста в не самом лучшем состоянии так:
1. Разбил текст на «главы» в зависимости от плачевности состояния (рваные, кофе, мятые)
2. Прогонял в режиме обучения первые пару листов (занимало минут 20)
3. Прогонял распознавание