mindtester
@mindtester
http://iczin.su/hexagram_48

Парсинг сложного документа RTF, извлечение табличных данных и разбиение на страницы, как?

изначально задача показалась простой, но ни в лоб, ни найделенными на джите парой парсеров, ни чего не получилось. что несколько обескуражило.

кстати, есть критичное ограничение - все компоненты должны быть легальными и свободными

буду благодарен за наводки!

upd по мотивам ответов/каментов на данный момент - это автогенеренный отчет, многостраничный, несколько однотипнх документов, с табличными формами. надо нарезать на страницы и снять выборочно инфу - допустим дата документа и часть табличных данных. и ни каких тегов поля не имеют
.. и дерево элементов построенное https://github.com/sgolivernet/nrtftree имеет 620331 строку ))
  • Вопрос задан
  • 882 просмотра
Решения вопроса 1
mindtester
@mindtester Автор вопроса, куратор тега C#
http://iczin.su/hexagram_48
1 - https://github.com/SourceCodeBackup/RtfDomParser лучший кандидат на извлечение данных. и уж точно на экпресс иследование
надо было просто научится его готовить
к счастью структура документа довольно четкая, по этому все решаемо. но либо не умеет сохранять модифицированные документы, либо я все еще не понимаю как пользоваться тамошний Writer-ом

2 - https://github.com/sgolivernet/nrtftree умеет сохранять текущее состояние, а значит может быть использован для нарезки. если научиться применять знания о структуре, полученные с помощью RtfDomParser. возможно и парсить можно.. но время выполнения задания не бесконечно. так что нарезку видимо придется делать средствами печати в PDF, явно будет быстрее (по условиям задания, на выхлопе нужны постраничные PDF)
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
прицепите свой "сложный документ RTF" пожалуйста. посмотреть справится лис ним https://poi.apache.org/components/document/
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы