Здравствуйте, вопрос заключается в следующем, мне нужно распарсить xml который сгенерирован ocr sdk по команде:
java TestApp recognize test.pdf result.xml --lang=russian
И из xml вытащить нужную информацию, не всю, а например мне надо узнать информацию из документа какой банк является получателем(в примере это АО "Народный банк казахстана'). Пытался определять по координатам(bottom, right, left, top), но погрешность очень большая, потому-что документ может от сканирован не ровно или не так.
Возможно ли это сделать?
ссылка на полученный xml:
https://www.dropbox.com/s/iofy6i4xjesrsyj/result.x...
ссылка на pdf:
https://www.dropbox.com/s/girz3it2ntt10fm/test.pdf?dl=0