Вариант1:
Расспознаем tesseract'ом в HOCR, находим в нем нужные слова и их координаты. Imagemagick'ом закрашиваем слова на сканам по координатам.
Вариант2:
Распознаем FineReader'ом, экспортируем в djvu, извлекаем из djvu текстовой слой с координатами и парсим его. Далее тоже самое с Imagemagick.
Все это можно автоматизировать скриптами.