Парсинг сложного документа RTF, извлечение табличных данных и разбиение на страницы, как?

Question

# @mindtester

http://iczin.su/hexagram_48

C#

Парсинг сложного документа RTF, извлечение табличных данных и разбиение на страницы, как?

изначально задача показалась простой, но ни в лоб, ни найделенными на джите парой парсеров, ни чего не получилось. что несколько обескуражило.

кстати, есть критичное ограничение - все компоненты должны быть легальными и свободными

буду благодарен за наводки!

upd по мотивам ответов/каментов на данный момент - это автогенеренный отчет, многостраничный, несколько однотипнх документов, с табличными формами. надо нарезать на страницы и снять выборочно инфу - допустим дата документа и часть табличных данных. и ни каких тегов поля не имеют
.. и дерево элементов построенное https://github.com/sgolivernet/nrtftree имеет 620331 строку ))

Вопрос задан более трёх лет назад
1156 просмотров

7 комментариев

Подписаться 2 Простой 7 комментариев

d'Ivan @2ord

Использование промежуточных форматов возможно?

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр, скорее да, таких ограничений не накладывалось

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр, кстати, там вообщето надо еще нарезанные страницы конвертить в pdf, и уже проскакивала крамольная мысль - может "сканить" инфу с пдфника будет проще? )))

Написано более трёх лет назад
d'Ivan @2ord

есть критичное ограничение - все компоненты должны быть легальными и свободными
RtfDomParser - это клон проекта RDP с лицензией GPLv2 со всеми вытекающими отсюда последствиями.

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр,
RtfDomParser - это клон проекта RDP с лицензией GPLv2 со всеми вытекающими отсюда последствиями.
.. бегло освежил .. думаю в данном случае не помеха ))

это был первый встречный вопрос от меня - имеются ли ограничения на применение опенсорсных лицензий, ответ был четкий - нет.
главное не покупать
возможно опонент не вдавался в подробности, или не совсем понял о чем я.. но пока тут просто отвалились массы платных триальных компонентов ))

Написано более трёх лет назад
d'Ivan @2ord

#,
главное не покупать
Суть лицензии GPLv2 не в том как покупать/продавать, а ограничения, связанные с распространением ПО. А это совсем не мелочи для проприетарного ПО, в котором хотят использовать наработки кода с лицензией GPLv2.

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр, да да, но повторюсь - в данном случае, этого либо не понимают, либо не важно. это тест. и ограничение было уточнено
не покупать
остальное можно все

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия C#-разработчик

12 месяцев

Далее
Merion Academy

C# разработчик с нуля

4 месяца

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

3 комментария

d'Ivan @2ord

Формирование страниц - это отдельная песня. Лучше решать эту задачу при помощи генераторов PDF или виртуальных принтеров в PDF (если позволяется поштучно).

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр, документ четко структурированный, 1 букмарк и 15 параграфов на страницу. ~~в теории~~ можно исследовать с помощью RtfDomParser и просто вырезать из оригинала nrtftree

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

Роман Мирр, nrtftree дал возможность порезать. известно что одно однотипных страниц 11. опорная точка код отсюда https://www.codeproject.com/Articles/11306/NRTFTre...

режем ноды 111 и 112 (разделитель страниц) и бинго! (в смысле корректный rtf без первой страницы. далее конвертить в пдф уже точно буду вордом, поштучно, а парсить RtfDomParser, уже часть пути пройдена )))

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

# @mindtester Автор вопроса, куратор тега C#

1 - документ не могу, он тестовый фейк, но лишь на половину. есть инфа о компании, довольно много. делать упрощенку - ну блин он реально такой плотный, не до этого, кодить буду )))

2 - задача то шарповая. если притягивать артиллерию с целой jvm - зачета не будет ))

Написано более трёх лет назад
сергей кузьмин @sergueik

по моему - java намного проще C# (попробовать обеих наверное особый фан). нельзя разве заменить все букыв на '*' ? интересен вашего документа deply nested RTF layout а не инфа о компании

Написано более трёх лет назад
# @mindtester Автор вопроса, куратор тега C#

sergueik,
1 - букав реально много (и страниц 11)
2 - это тест на вакансию шарпера
3 - смотреть инструменты для работы с OpenXML не интересно. есть родной SDK, но исходник rtf автогенереный. при конверсии в OpenXML(.docx) в нем что то получается весьма мутно ))) - ворд не способен порезать его корректно на страницы. селектит только разделители, по этому получаются накладки контента вместо удаления. но задача уже решена см камент к моему собственному ответу
4 - недавно проходил простейший тест на яву (с этим заданием не сравнить, блиц опросник по языку), но действительно стало даже немного интересно. но шарп люблю, и варюсь в нем давно
5 - .. и хочу спать ))

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Средний
Как наиболее просто игроку изменять модель игрового объекта в Unity?
- 1 подписчик
- 10 дек.
- 78 просмотров
1

ответ
C#

+2 ещё

Простой
Каков вектор развития legacy-проекта на WinForms?
- 1 подписчик
- 03 дек.
- 200 просмотров
1

ответ
C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 140 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 112 просмотров
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 302 просмотра
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 152 просмотра
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 369 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 102 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 122 просмотра
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 327 просмотров
0

ответов
Показать ещё Загружается…

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

C#/.NET-разработчик

FLEX Soft • Ташкент

от 200 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Использование промежуточных форматов возможно?
Роман Мирр, скорее да, таких ограничений не накладывалось
Роман Мирр, кстати, там вообщето надо еще нарезанные страницы конвертить в pdf, и уже проскакивала крамольная мысль - может "сканить" инфу с пдфника будет проще? )))
есть критичное ограничение - все компоненты должны быть легальными и свободными
RtfDomParser - это клон проекта RDP с лицензией GPLv2 со всеми вытекающими отсюда последствиями.
Роман Мирр,
RtfDomParser - это клон проекта RDP с лицензией GPLv2 со всеми вытекающими отсюда последствиями.
.. бегло освежил .. думаю в данном случае не помеха ))

это был первый встречный вопрос от меня - имеются ли ограничения на применение опенсорсных лицензий, ответ был четкий - нет.
главное не покупать
возможно опонент не вдавался в подробности, или не совсем понял о чем я.. но пока тут просто отвалились массы платных триальных компонентов ))
#,
главное не покупать
Суть лицензии GPLv2 не в том как покупать/продавать, а ограничения, связанные с распространением ПО. А это совсем не мелочи для проприетарного ПО, в котором хотят использовать наработки кода с лицензией GPLv2.
Роман Мирр, да да, но повторюсь - в данном случае, этого либо не понимают, либо не важно. это тест. и ограничение было уточнено
не покупать
остальное можно все

Answer 1 · 2019-04-04 15:22:54

1 - https://github.com/SourceCodeBackup/RtfDomParser лучший кандидат на извлечение данных. и уж точно на экпресс иследование

надо было просто научится его готовить

к счастью структура документа довольно четкая, по этому все решаемо. но либо не умеет сохранять модифицированные документы, либо я все еще не понимаю как пользоваться тамошний Writer-ом

2 - https://github.com/sgolivernet/nrtftree умеет сохранять текущее состояние, а значит может быть использован для нарезки. если научиться применять знания о структуре, полученные с помощью RtfDomParser. возможно и парсить можно.. но время выполнения задания не бесконечно. так что нарезку видимо придется делать средствами печати в PDF, явно будет быстрее (по условиям задания, на выхлопе нужны постраничные PDF)

Answer 2 · 2019-04-03 20:51:07

прицепите свой "сложный документ RTF" пожалуйста. посмотреть справится лис ним https://poi.apache.org/components/document/

Парсинг сложного документа RTF, извлечение табличных данных и разбиение на страницы, как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт