Java. Каким способом объединить xml больших обьемов?

Question

aidkz @aidkz

Java
XML

Java. Каким способом объединить xml больших обьемов?

XML файлы 100мб-1гб, DOM-ом ошибка переполнения памяти (отключать -XX:-UseGCOverheadLimit, выдать больше памяти JMV, не вариант). Через StaX с нуля (читаем каждый xml и на лету создаем новый) не вариант. JAXB маршалинг-демаршалинг (слишком большой обьем, много классов скорее всего тоже по памяти полетит)? Какие еще есть способы, в какую сторону копать? (по возможности без фреймворков).
Заранее спасибо.

Вопрос задан более трёх лет назад
496 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

Сергей Горностаев @sergey-gornostaev Куратор тега Java

Смотря как объединить надо. Если это тупая склейка, то можно вообще без анализа xml обойтись, просто считываем файлы по очереди и пишем в один. Максимум, что может понадобиться - строковыми операциями обнаруживать открывающий и закрывающий корневой тег. Если надо данные интеллектуально перемешать с соблюдением иерархии тегов и значений атрибутов этих тегов, то можете ставить крест на задаче и поздравить того, кто когда-то выбрал формат xml.

Написано более трёх лет назад
aidkz @aidkz Автор вопроса

Да, это тупая склейка, но количество файлов не конечные. Как и писал выше, без проблем читаю файлы и StaX-ом с нуля делаю новый xml. Не хочется с нуля, хочу :) указать xml приемник, спозиционироваться на каком то элементе и начать добавлять. Ну не может быть так что бы это не было не возможно. Должны быть какие то средства.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Java

aidkz: все xml-парсеры, кроме потоковых, сжирают памяти в несколько раз больше размера анализируемого файла. Это факт от которого никуда не деться.

Написано более трёх лет назад
Alex XYZ @AlexXYZ

aidkz: ну, тогда разрезать первый файл на две части и вставить в между ними второй? (Естественно, удалив окружающие элементы). Вопрос - как правильно спозиционировать точку разрезания? в лоб я бы вставил в первый файл в ноду, перед которой надо разрезать (есть ограничения, но поискать для исключения другие варианты) атрибут с таким guid, последовательность которого не встречается в файле, нашёл бы его текстовым поиском, отмотал бы на начало ноды и отрезал бы простым разрезанием файла.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 149 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 244 просмотра
1

ответ
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 112 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 100 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 171 просмотр
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 151 просмотр
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 171 просмотр
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 170 просмотров
1

ответ
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 292 просмотра
3

ответа
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Смотря как объединить надо. Если это тупая склейка, то можно вообще без анализа xml обойтись, просто считываем файлы по очереди и пишем в один. Максимум, что может понадобиться - строковыми операциями обнаруживать открывающий и закрывающий корневой тег. Если надо данные интеллектуально перемешать с соблюдением иерархии тегов и значений атрибутов этих тегов, то можете ставить крест на задаче и поздравить того, кто когда-то выбрал формат xml.
Да, это тупая склейка, но количество файлов не конечные. Как и писал выше, без проблем читаю файлы и StaX-ом с нуля делаю новый xml. Не хочется с нуля, хочу :) указать xml приемник, спозиционироваться на каком то элементе и начать добавлять. Ну не может быть так что бы это не было не возможно. Должны быть какие то средства.
aidkz: все xml-парсеры, кроме потоковых, сжирают памяти в несколько раз больше размера анализируемого файла. Это факт от которого никуда не деться.
aidkz: ну, тогда разрезать первый файл на две части и вставить в между ними второй? (Естественно, удалив окружающие элементы). Вопрос - как правильно спозиционировать точку разрезания? в лоб я бы вставил в первый файл в ноду, перед которой надо разрезать (есть ограничения, но поискать для исключения другие варианты) атрибут с таким guid, последовательность которого не встречается в файле, нашёл бы его текстовым поиском, отмотал бы на начало ноды и отрезал бы простым разрезанием файла.

Answer 1 · 2017-07-04 12:03:01

al_gon @al_gon

StaX+JAXB

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2017-07-07 13:22:42

Если имеется в вижу, что есть множество мелких файлов XML общим объёмом 100Мб-1Гб, то применял следующие методы:
1. StringBuilder с заголовком, далее в него дописываю выдранные с помощью RegEx содержимые каждого из XML. В конце записываю в StringBuilder в шапку что требуется (например, число обработанных файлов), добавляю хвост интегрального XML - и вуаля.
2.Если не требуется шапку менять в конце работы, то открываю новый ZIP файл и пишу в его поток, который идёт сразу на диск (или в память, как требуется по ситуации). Получается ещё компактнее, раз так в 20-30 по памяти.
3. Можно и просто в буферизованный файловый поток писать, опять-же (см. пункт 2).

Выдирал всегда RegEx'ом только потому, что условия были простыми: найти начальный и замыкающий теги нужного куска XML. Если желательно форматирование, то можно слегка подшаманить при добавлении очередного найденного куска с дополнительными пробелами, табуляциями и \n(\r).

Java. Каким способом объединить xml больших обьемов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт