Каким образом парсить\разбирать XML подобного вида?

Question

Renniks @Renniks

Каким образом парсить\разбирать XML подобного вида?

Доброго дня!

Прощу помощи в изобретении велосипеда.

Есть xml файл формата:
Разбил переносами и урезал длину строки для повышения читаемости. В оригинале порядка 80к строк, по 20 атрибутов в каждой.

<xml>
	<Detail_collection>
		<Detail 
			Полное_и_сокращенное_наименование_организации="Общество с ограниченной ответственностью "РогаИКо" Сокращенно: ООО "РогаИКо"" 
			ИНН_организации="0123456789" 
			КПП_организации="123456789" 
			Адрес__место_нахождения___организации="РОССИЯ,0123456,"Кукуево г,,Затерянная ул,15/7,," 
			Адрес_электронной_почты_организации="none@none.net"  />
		<Detail Полное_и_сокращенное_наименование_организации="..".." />
		<Detail Полное_и_сокращенное_наименование_организации="..".." />
</Detail_collection>
</xml>

Необходимо выдернуть из него значения атрибутов с дальнешим занесением в бд.

Тренировался на упрощенном варианте:

<?xml version="1.0" encoding="utf-8" ?> 
<xml>
    <Detail_collection>
        <Detail text1="sometext11" text2="sometext21" text3="sometext31" />
        <Detail text1="sometext12" text2="sometext22" text3="sometext32" />
    </Detail_collection>
</xml>

import xml.etree.cElementTree as ET
from SQL_worker import Write_to_SQL

tree = ET.parse("data.xml")
root = tree.getroot()

for data in root.findall(".//Detail"):
    a = (data.attrib["text1"])
    b = (data.attrib["text2"])
    c = (data.attrib["text3"])
    Write_to_SQL(a, b, c)

Такой код отлично отрабатывает "упрощенный пример".
Но оригинальный документ вылетает ещё при парсинге с ошибкой:

xml.etree.ElementTree.ParseError: not well-formed (invalid token)

Ссылаясь на первый же фрагмент с "лишними" кавычками.

Методов нормализации такого файла для последующего парсинга я не нашел.

Есть XML-schema к нему, но насколько я понял, кроме валидации, другого применения ему нет.
В данный момент склоняюсь к разбору с помощью регулярных выражений, но хочется верить, что есть более изящное решение.

Вопрос задан более трёх лет назад
392 просмотра

4 комментария

Подписаться 3 Средний 4 комментария

sim3x @sim3x

Лучше пнуть того кто поставляет хмл, чтоб он сделал свою работу нормально

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Увы и ах, абсолютно не жизнеспособный вариант :(
Придется использовать то что есть и в таком виде, как оно есть.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Максим Сухарьков, ну в целом идея-то красивая - начать глобально пинать разработчиков дабы они придерживались хоть каких-то стандартов.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Максим Сухарьков, увы, знакомо, тоже со сметным ПО приходится пересекаться. Благо, весьма поверхностно. Безнадежность ситуации понимаю, но с другой стороны - пока массово не начнут требовать и возмущаться - ничего и не изменится.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Renniks @Renniks Автор вопроса

Да, все атрибуты абсолютно идентичны, меняются только значения.
Сам склоняюсь к регулярным, но есть ощущение, что нечто ускользает.
Мерси за ответ!

Написано более трёх лет назад
werevolff @werevolff

Renniks, 1С вообще скользкая. Надо не ощущать, а пилить регулярку. Там ещё помимо кавычек может быть куча ошибок.

Написано более трёх лет назад
Rsa97 @Rsa97

Renniks, Если в каждой строке есть все атрибуты и всегда в одном порядке, то это элементарно: https://regex101.com/r/ADXOnw/1

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

werevolff, эх, а так хотелось ошибиться с предположением о происхождении данной выгрузки, но увы, Вы подтвердили опасения.

Rsa97, ещё раз спасибо, изучаю.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Rsa97, благодарю за регулярку - весьма сильно помогла в решение задачи. Однако, увы, и тут не все так просто оказалось. Как минимум, ввиду наличия различных форм(ООО, ОАО, ЗАО, ОДО и т.п.) собственности и набора реквизитов для них. Но основную суть, благодаря Вам, уловил. Посмотрим, что из этого получится.

UPD: Прихожу к мысли, что нужно перебирать атрибуты в строке по одному и в зависимости от значения - варьировать набор для поиска.

Написано более трёх лет назад
werevolff @werevolff

Renniks, не знаю других инструментов, которые выгружали бы контрагентов в битом XML с обилием кириллицы. По опыту скажу, что парсер такой выгрузки на php я писал неделю. С юнит-тестами без мокинга. При этом, времени на отдых пока шли тесты не было. Стабильно часто тест дохнул.
Коллега писал выгрузку для какой-то кредитной организации. Без тестов. Писал месяц. Источником был 1С. Так что, там кавычками не ограничится.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

werevolff, благодарю, обнадежили :)
Сам пришел к аналогичному выводу - задачка не столь простая, как казалось и потребует тщательного тестирования с последующей отладкой.

Написано более трёх лет назад
Rsa97 @Rsa97
Renniks, На самом деле задачка несложная, если составить список всех известных параметров. Тогда можно сначала разбить текст по строке "<Detail ", затем каждую строку в цикле разобрать страшной регуляркой вида:
Полное_и_сокращенное_наименование_организации|ИНН_организации|...все остальные параметры...)=(.*?)\s+(?=Полное_и_сокращенное_наименование_организации|ИНН_организации|...все остальные параметры...|\/>)
Написано более трёх лет назад
DevMan @DevMan

Rsa97, все гораздо проще и я описал это в своем ответе.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 79 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 121 просмотр
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 190 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 218 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 198 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 247 просмотров
0

ответов
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 244 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Лучше пнуть того кто поставляет хмл, чтоб он сделал свою работу нормально
Увы и ах, абсолютно не жизнеспособный вариант :(
Придется использовать то что есть и в таком виде, как оно есть.
Максим Сухарьков, ну в целом идея-то красивая - начать глобально пинать разработчиков дабы они придерживались хоть каких-то стандартов.
Максим Сухарьков, увы, знакомо, тоже со сметным ПО приходится пересекаться. Благо, весьма поверхностно. Безнадежность ситуации понимаю, но с другой стороны - пока массово не начнут требовать и возмущаться - ничего и не изменится.

Answer 1 · 2018-07-30 22:04:45

Тут, IMHO, токмо регуляркой разбирать. Тот, кто этот xml готовил забыл кавычки преобразовать, возможно и другие символы тоже.
Если все атрибуты идут в одном порядке, то, в принципе, разобрать несложно.

Каким образом парсить\разбирать XML подобного вида?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт