Какая библиотека самая эффективная на данный момент в задачах парсинга XML?

Question

crmMaster @crmMaster

Какая библиотека самая эффективная на данный момент в задачах парсинга XML?

В нашем проекте остро встал вопрос увеличения эффективности XML парсинга.

Наша основная задача - парсинг ответов SOAP сервисов. В данный момент используем Nokogiri (Ruby), но даже c C++ оптимизациями ее эффективность крайне низка.

Эффективность для нас - это скорость выполнения задачи в условиях бесконечно доступных ресурсов. Nokogiri в этом плане крайне печальна, т.к. не работает в многопоточном режиме и содержит много ненужной нам функциональности.

Платформа и язык опять же не имеют значение - умели бы работать с unix-socket, а дальше все уже готово :)

В теории, Erlang-реализация могла бы стать более эффективной из-за многопоточной архитектуры, но грамотные реализации на C++, Rust или Java располагают теми же системными возможностями.

Вот и хотелось бы собрать самые лучшие библиотеки всех миров чтобы столкнуть лбами на реальной задаче.

Ну а что действительно лучшее - хотелось бы услышать от вас.

P.S. Парням "выкинь либу, юзай поиск подстроки" просьба пройти на www.coursera.org какой-нибудь курс по обработке данных и больше не советовать откровенных глупостей.

P.P.S Еще более упоротым парням "перепиши все на ассемблере под куду", советую и дальше упарываться ассемблером под куду. У нас тред про robust решения

Вопрос задан более трёх лет назад
610 просмотров

2 комментария

Подписаться 2 Оценить 2 комментария

Решения вопроса 2

2 комментария

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

2 комментария

1 комментарий

3 комментария

al_gon @al_gon

совсем забыл https://en.wikipedia.org/wiki/StAX

Написано более трёх лет назад
crmMaster @crmMaster Автор вопроса

al_gon: "умели бы работать с unix-socket" - это характеристика относительно языка или платформы, на которой сделана библиотека. Вот Brainfuck например не умеет, и PL/SQL тоже, а потому решений на них нам не надо :)

В память все помещается, StAX - что-то новенькое, потестим, спасибо. XML Pull я так понимаю самая лучшая из них?

Написано более трёх лет назад
al_gon @al_gon

crmMaster: Теперь понятно насчёт сокетов.
Да XML Pull больше подходит, это скорее "парадгма" парсинга, если так можно сказать.
https://docs.oracle.com/cd/E19575-01/819-3669/bnbd...
Я бы взял https://github.com/FasterXML/woodstox

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 7 часов назад
- 49 просмотров
2

ответа
Java

+1 ещё

Простой
Кто знает конкретную практику для начинающего Java разработчика?
- 1 подписчик
- 12 часов назад
- 56 просмотров
2

ответа
C++

Простой
Сборник задач на C++?
- 1 подписчик
- 17 часов назад
- 58 просмотров
1

ответ
C++

Простой
Почему requires !std::is_void_v работает только для шаблона?
- 1 подписчик
- вчера
- 43 просмотра
0

ответов
Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 2212 просмотров
3

ответа
C++

Простой
Почему возникает ошибка C2512 в конструкторе с std::initializer_list?
- 1 подписчик
- 12 авг.
- 90 просмотров
1

ответ
C++

+1 ещё

Простой
Почему окружность получается отрисованной не ровно?
- 1 подписчик
- 11 авг.
- 162 просмотра
2

ответа
Rust

Простой
Как вывести клиентскую куку в приложении, которое использует Reqwest with cookie_provider()?
- 3 подписчика
- 10 авг.
- 331 просмотр
0

ответов
C++

Средний
Как инициализировать TCHAR*?
- 1 подписчик
- 08 авг.
- 81 просмотр
2

ответа
Java

Простой
Как скомпилировать Swing приложение с AOT?
- 1 подписчик
- 08 авг.
- 89 просмотров
1

ответ
Показать ещё Загружается…

Java-разработчик (Маркетинга AI)

Сбер • Москва

от 300 000 до 350 000 ₽

Java разработчик (продукт «Справочники»)

HFLabs

от 200 000 до 300 000 ₽

Java-разработчик

Wanted

До 400 000 ₽

crmMaster: А проводили ли Вы собственное предварительное исследование на данную тему? Если да, поделились бы сразу своими результатами.
ИМХО, надо накидать бенчи, и прогнать им известные/интересующие либы, дабы увидеть реальных выхлоп интересующих Ваc метрик.
Поясни, что подразумевается под "не работает в многопоточном режиме"

Answer 1 · 2016-11-16 20:00:25

Думаю что стоит начать с исследования инструментов на том языке разработки www.ohler.com/dev/xml_with_ruby/xml_with_ruby.html

Answer 2 · 2016-11-16 21:45:19

Сергей @begemot_sun

Программист в душе.

Чистый Erlang вам не нужен.

ну есть какойнить
https://github.com/processone/fast_xml

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2016-11-16 20:11:49

lxml

при чем там сокеты, "параллельность обработки" и др вещи совсем неясно

Паука / скраппера можно писать на чем угодно - и ето не повлияет на скорость парсинга и построения дерева xml

Answer 4 · 2016-11-17 11:15:49

Для обработки (парсинга) XML есть два идеологически различающихся подхода:
а) DOM, когда считывают весь XML в память, строя в ней полную иерархию структуры и
б) SAX - когда проходят по файлу вдоль него, посещая все элементы один раз, причём последовательно.

DOM хорош только для небольших файлов с внутренними зависимостями элементов, когда может потребоваться обратиться к данным произвольных элементов в любой момент времени.

SAX работает максимально быстро (на 1-2 порядка быстрее, чем DOM) но может потребовать реализации сложной логики хранения нужных данных, если логика задачи также потребует возврата к данным предыдущих элементов.

И DOM и SAX имеют устойчивые и надёжные реализации для всех языков и операционных систем мира. Выбор между ними зависит только от задачи и среды разработки.

Есть и смешанные подходы, в частности JAXB - когда с помощью SAX считывают и помещают данные XML не в DOM объект, но в примитивные объекты классов языка, на которых уже и реализуется конкретная бизнес-логика. Проблема JAXB в том, что он может обрабатывать ТОЛЬКО уже известные ему структуры XML, т.е. практически это компиляция XSD в Java/C# и т.д. код. Поменялась XSD - меняй и Java/C# и т.д. код и адаптируй логику программы под новые данные. Зато - максимум достижимой эффективности в процессе работы.

Я лично всегда выбираю SAX, т.к. однажды, лет 10 назад, наблюдал большие затруднения по работе с многосотмегбайтными XML при использовании DOM. При том, что внутри были просто сотни тысяч отдельных мелких логически независимых единиц информации (телефонные счета для рассылки клиентам). А на SAX решили эту же задачу тупо и в лоб, по API документации, без каких-либо хитростей и проблем.

В чём проблема больших объектов DOM? В том, что им требуется много-много маленьких кусочков памяти. А это есть самый плохой случай доступа к данным, как для оперативной памяти, так и для дисковой. Каждый наблюдал это явление, когда запись файла может занимать в десятки раз больше времени, чем его считывание. Собственно, вся обработка данных чисто исторически затачивается на считывание многих данных (кэширование!!!) и запись немногих (write through). Один раз обновил - считывай сотни раз. Именно под такую логику и разрабатываются и оптимизируются процессоры, память, диски, софт!

Насчёт многопоточности - это вопрос не обработки одиночного XML, а а способов слияния результатов обработки отдельных XML в общую БД. Так и так каждый отдельный XML объект может быть обработан ТОЛЬКО в одном потоке. Так уж он устроен. Если представить себе какой-то гигантский XML, структура данных которого позволяет параллельную обработку, то всё равно хотя бы раз его придётся полностью пройти в одном потоке, чтобы разделить на автономные единицы параллельной обработки.

Кстати, Oracle умеет достаточно эффективно обрабатывать поля своей БД, содержащие XML. И делает это именно через SAX )))

Answer 5 · 2016-11-16 19:43:55

"умели бы работать с unix-socket" и задачи парсинга XML я бы не смешивал.
Java:
Если простые данные, но сразу в большом объеме, то https://ru.wikipedia.org/wiki/SAX
Если комплексные и не в большом объеме (помещаются в память) то https://ru.wikipedia.org/wiki/Java_Architecture_fo...

Если комплексные и не помещаются в память то комбнация из SAX и JAXB.

Какая библиотека самая эффективная на данный момент в задачах парсинга XML?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт