Принцип - сканы распознают и делают Ворды или снова ПДФы, в которых снизу лежит текст, а сверху - скан. Текст позволяет индексировать документы, скан - защищает от ошибок распознания.
Используется в системах электронного документооборота - это готовые решения для вас.