Как создать DataFrame из xml?

Question

san_m_m @san_m_m

Python

Как создать DataFrame из xml?

Нужно перевести файл xml в DataFrame и что-то не соображу как это сделать.

Есть файл xml со следующей структурой:

<?xml version="1.0" encoding="utf-8"?>
<licenses_list>
	<licenses>
		<name>Министерство здравоохранения Астраханской области</name>
		<activity_type>Медицинская деятельность</activity_type>
		<abbreviated_name_licensee>ООО &quot;КЛИНИКА &quot;ЛИНЛАЙФ&quot;</abbreviated_name_licensee>
		<works>
					<work>100. При оказании первичной, в том числе доврачебной, врачебной и специализированной, медико-санитарной помощи организуются и выполняются следующие работы (услуги):</work>
					<work>100.1. при оказании первичной доврачебной медико-санитарной помощи в амбулаторных условиях по:</work>
					<work>100.1.25. сестринскому делу в косметологии</work>
					<work>100.4. при оказании первичной специализированной медико-санитарной помощи в амбулаторных условиях по:</work>
					<work>100.4.7. анестезиологии и реаниматологии</work>
		</works>
	</licenses>    
</licenses_list>

Я пишу следующее:

import xml.etree.ElementTree as ET
import pandas as pd


tree = ET.parse('Рабочий.xml')
root = tree.getroot()

df_index = ['name', 'activity_type',  'abbreviated_name_licensee', 'works']

df = pd.DataFrame(columns=df_index)  
  
df_index =  ['name', 'activity_type',  'abbreviated_name_licensee', 'works']


 
df = pd.DataFrame(columns=df_index)  
  
for elem in root:  
    for b in range(0,len(elem[3])):
        elements = [elem[0].text, elem[1].text, elem[2].text, elem[3][b].text]
        df = df.append(pd.Series(elements, index=df_index), ignore_index=True)

Что-то никак не могу сообразить как мне всю информацию под тегом works сложить в одну ячейку через запятую...

Вопрос задан более трёх лет назад
273 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Python-разработчик + ИИ

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 198 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 211 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 73 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 104 просмотра
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 96 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 117 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 463 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 985 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 322 просмотра
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 545 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Answer 1 · 2021-10-03 13:27:15

Не нужно перебирать элементы 'works' в том же цикле, где и добавляются строки к DF. Если их перебирать, то и складывать в одну строку (через запятые), а потом уже создавать запись в pandas. Или же вообще этот цикл заменить на join():

for elem in root:
    elements = [elem[0].text, elem[1].text, elem[2].text, ','.join(val.text for val in elem[3])]
    df = df.append(pd.Series(elements, index=df_index), ignore_index=True)

Еще стоит учесть, что в таком коде обращение по индексам (elem[0].text и подобное) создает жесткую привязку к позиции узла в xml. Если порядок поменяется, то столбцы будут парситься неверно. Возможно стоило использовать более явное указание: elem.find('name').text

Как создать DataFrame из xml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт