изначально задача показалась простой, но ни в лоб, ни найделенными на джите парой парсеров, ни чего не получилось. что несколько обескуражило.
кстати, есть критичное ограничение - все компоненты должны быть легальными и свободными
буду благодарен за наводки!
upd по мотивам ответов/каментов на данный момент - это автогенеренный отчет, многостраничный, несколько однотипнх документов, с табличными формами. надо нарезать на страницы и снять выборочно инфу - допустим дата документа и часть табличных данных. и ни каких тегов поля не имеют
.. и дерево элементов построенное
https://github.com/sgolivernet/nrtftree имеет 620331 строку ))