Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?

Question

un1t @un1t

Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?

Условия

1) Есть большой XML файл. Соотвественно заргужать его весь в память не подходит.

2) Файл содржит ошибки, напрмер внутри тегов может быть неэкранированные html теги, не закрытые.

lxml и sax умеетю парсить постепенно читая файл, но валятся на незакрытых тегах внутри нужных нам тегов

BeautifulSoup не валиться на незакрытых тегах, но похоже что он загружает весь файл в память сразу же.

Есть ли готовые решения подходящие под данные условия?

Вопрос задан более трёх лет назад
6609 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

4 комментария

DmZ @DmZ

from lxml import etree

parser = etree.XMLParser(recover=True, huge_tree=True)
tree = etree.parse("file.xml", parser)

Написано более трёх лет назад

un1t @un1t Автор вопроса

Попробовал этот вариант. Ошибок не выдает но парсит элементы только до незакрытого тега.

Написано более трёх лет назад
DmZ @DmZ
Он парсит все, просто остальной документ находится внутри этого самого тега — будет каша, так как XML изначально не валидный.
Пример:

>>> from StringIO import StringIO >>> from lxml import etree >>> xml = "<tag1><tag21></tag21><tag22></tag22></tag1>" >>> parser = etree.XMLParser(recover=True, huge_tree=True) >>> tree = etree.parse(StringIO(xml), parser) >>> print etree.tostring(tree, pretty_print=True) <tag1> <tag21> <tag22/> </tag21> </tag1>

Парсер пытается сделать все что может чтобы получить хоть какой-то XML.
Или если добавить текста, то многое уйдет «под» первый не закрытый тег:

>>> xml = "<tag1><tag21>texttext2text3</tag21><tag22></tag22></tag1>" >>> tree = etree.parse(StringIO(xml), parser) >>> print etree.tostring(tree, pretty_print=True) <tag1> <tag21> texttext2text3<tag22/> </tag21> </tag1>

Чтобы этого не происходило, можно к документу написать DTD — структуру документа.
Написано более трёх лет назад
DmZ @DmZ
Например перенесем наш инвалидный пример в файл text.xml и скажем что tag21 не должен парсится вообще:

<?xml version="1.0"?> <!DOCTYPE tag1 [ <!ELEMENT tag1 (tag21, tag22)> <!ELEMENT tag21 (CDATA)> <!ELEMENT tag22 (#PCDATA)> ]> <tag1> <tag21> text text2 text3 </tag21> <tag22> </tag22> </tag1>

А теперь заставим lxml прочитать уже с учетом структуры:

>>> from lxml import etree >>> parser = etree.XMLParser(recover=True, huge_tree=True, load_dtd=True) >>> tree = etree.parse("test.xml", parser) >>> print etree.tostring(tree, pretty_print=True) <!DOCTYPE tag1 [ <!ELEMENT tag1 (tag21 , tag22)> <!ELEMENT tag21 (CDATA)> <!ELEMENT tag22 (#PCDATA)> ]> <tag1> <tag21> text text2 text3 <tag22> </tag22> </tag21></tag1>

Согласитесь что уже гораздо лучше.

Но так как структуру документа знаете только вы, то только вы сами должны разобрать поломанный XML пусть и с помощью сторонних программ. Никакие программы не будут обладать достаточной эвристикой чтобы распарсить поломанный XML так как хочется именно вам.
Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 491 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 505 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2012-11-16 22:14:38

egorinsk @egorinsk

Если файл XML содержит ошибки, то это уже не файл XML.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2012-11-16 23:07:10

lxml в варианте «распарсить любой ценой» тоже не проходит?

parser = etree.XMLParser(recover=True, huge_tree=True)

В этом режиме он будет пытаться обойти незакрытые теги и невалидный XML на сколько у него хватит ума.

Answer 3 · 2012-11-17 16:21:30

можно сначала представить что xml — это обычный текстовый и файл и привести структуру тегов в порядок функциями работы со строками, а уже потом открывать его как xml

например можно заменить все html теги на «нетеги»

sed -e 's/<p/\& lt;p/g' -e 's/<\/p/\& lt;\/p/g' file.xml > new.xml

список всех html тегов гуглится

можно предварительно сравнить количество открывающих и закрывающих тегов

grep -o '<[^>]*>' file.xml |  cut -f 1 -d ' ' | sort | uniq -c

Как на Python распарсить большой XML файл (&gt;500Мб) содержаший ошибки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт

Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?