По нашему опыту OCR от tesseract ужасен :) это действительно так.
По пробуйте хотя бы
Google Cloud Vision API – до 1000 страниц бесплатно, и затем за каждую 1000 всего $1,5
Но лучше всего конечно же ABBYY, у него OCR лучше всех.
Вам нужно искать по теме
form processing — это именно нахождение областей в документе, а не просто его распознавание.
Попробуйте поискать так:
— ocr form processing open source
— form processing java