Python и XML

Question

tucnak @tucnak

Python и XML

Я новичок в языке Пайтон. Сейчас решил научится работать с XML. Как обычно — возникают сложности.

На компе Windows 7, Python 2.7

document.xml

<document>
	<name>Illya Kovalevskiy</name>
	<hobby>Computer Programming</hobby>
</document>

xml-parser.py

from xml.dom.minidom import *

xml = parse('document.xml')
name = xml.getElementsByTagName('name')

for node in name:
	print node

Запускаю, выдает — DOM Element: name at 0xblablab

Простите за очень корявый разбор.

Укажите на ошибки в разборе дерева и объясните как считать текст между тегов.

Конкретно интересует разбор уже ранее известного дерева.

P.S. Простите за грамматические ошибки, в 7 классе Киевского лицея не преподают русский язык.

Вопрос задан более трёх лет назад
38555 просмотров

Комментировать

Подписаться 14 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

tucnak @tucnak Автор вопроса

Спасибо. Работает. Очень благодарен.

Написано более трёх лет назад
Анатолий @taliban

Если не сложно, обьясните плиз принцип такого кода:
1. name = xml.getElementsByTagName('name') .// получаем коллекцию нод с именем name
2. for node in name: // проходимся по каждой и получаем элемент коллекции (ноду)
3. node.childNodes[0].nodeValue // выводим значение первого элемента полученной ноды
Но ведь в ноде name нет детей, откуда берется .childNodes[0]? Почему нужно работать именно с ней?

Написано более трёх лет назад
MT @MTonly

Про текстовые DOM-узлы слышали? ;-)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

Комментировать

4 комментария

dutchakdev @dutchakdev

Чувствую себя говном.

Написано более трёх лет назад
Анатолий @taliban

Кстати зря =) Я так и не понял как вывести значение ноды как текст, тока как xml =) Когда пытаюсь вывести name.nodeValue выдает None, вот тут я уже не вкурсе почему, отсутствие знаний питона сказывается =)

Написано более трёх лет назад
Владимир Чернышев @VolCh

Это не незнание Python, а незнание XML и DOM. «Illya Kovalevskiy» это не значение ноды name, а значение анонимной текстовой ноды, являющейся дитём ноды name.

Написано более трёх лет назад
Анатолий @taliban

Почему у ноды name должны быть дети, если их нет?

Написано более трёх лет назад

1 комментарий

6 комментариев

Ano @Ano

И да, разумеется, с lxml (и с любым etree) проще :)

Написано более трёх лет назад
Анатолий @taliban
«Вы в курсе, что принципы DOM везде одинаковые»
Исходя из ваших слов, текущий код должен быть валидным и отдавать содержимое документа:

document.getElementsByTagName('body')[0].childNodes[0].nodeValue

Это код на JavaScript, принципы DOM ведь везде одинаковые.
Написано более трёх лет назад
Ano @Ano
Этот код валидный и отдает содержимое первого текстового узла, дочернего по отношению к первому элементу BODY. На этой странице, например, это несколько переносов строк.

> document.getElementsByTagName('body')[0].childNodes[0].nodeValue " "
Написано более трёх лет назад

Анатолий @taliban

Тоесть в xml типа:


<document>
	<name>AcidSlayer</name>
	<hobby>Python</hobby>
</document>

на самом деле струкрута примерно такая:


<document>
    <name>
        <#text>AcidSlayer</#text>
    </name>
    <hobby>
        <#text>Python</#text>
    </hobby>
</document>

Написано более трёх лет назад

Ano @Ano

Даже такая:

<document><#text>
    </#text><name><#text>AcidSlayer</#text></name>
    <hobby><#text>Python</#text></hobby><#text>
</#text></document>

Написано более трёх лет назад

dutchakdev @dutchakdev

Очень интересно, спасибо. На днях посижу доку почитаю)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 220 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 870 просмотров
3

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 492 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 505 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3715 просмотров
12

ответов
Показать ещё Загружается…

Answer 1 · 2011-08-17 16:56:08

shsmad @shsmad

вуаля

from xml.dom.minidom import *

xml = parse('document.xml')
name = xml.getElementsByTagName('name')

for node in name:
	print node.childNodes[0].nodeValue

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2011-08-17 16:54:46

С lxml можно так

from lxml import etree
tree = etree.parse('document.xml')
print tree.xpath("/document/name/text()")
print tree.xpath("/document/hobby/text()")

Туториал

Answer 3 · 2011-08-17 16:17:20

Блин, ну Вы даете.
1. Я не знаю питона
2. Я скачал питон
3. Я запустил Ваш скрипт
4. Я получил Ваш результат
5.!!!
6. PROFIT


from xml.dom.minidom import *

xml = parse('document.xml')
name = xml.getElementsByTagName('name')

for node in name:
	print dir(node)

Вывод: Новое поколение — пипец ленивое, знаете что прячется за восклицательными знаками? (рас и Два[«python список методов объекта» гугл первая же ссылка])

Answer 4 · 2011-08-17 16:17:52

Лично я далеко не профи в Python, но язык очень нравится. Сейчас загружен и некогда засеть и углубится в него.
Но на данное время я могу родить лишь вот такое:
#demo.xml

<document>
	<name>AcidSlayer</name>
	<hobby>Python</hobby>
</document>

#habra.py

#Тут поняно
from xml.dom.minidom import parseString
#Берем фалйлик
file = open('demo.xml')
#Конвертим его в string
data = file.read()
#Тут понятно
file.close()
#Парсим сам файл
dom = parseString(data)
#Полчаем хабра теги
nameTag = dom.getElementsByTagName('name')[0].toxml()
hobbyTag = dom.getElementsByTagName('hobby')[0].toxml()
#Убераем лишнее
name=nameTag.replace('<name>','').replace('</name>','')
hobby=hobbyTag.replace('<hobby>','').replace('</hobby>','')
#Выводим
print name
print hobby

Как-то так.

Answer 5 · 2011-08-17 17:03:01

Ну вы все даете. Вы в курсе, что у python есть документация? С примерами.

docs.python.org/library/xml.dom.minidom.html

Вы в курсе, что принципы DOM везде одинаковые, и есть текстовые узлы?

>>> dom = parseString('<doc><name>Non nom</name><hobby>python</hobby></doc>')
>>> textnode = dom.getElementsByTagName('name')[0].childNodes[0]
>>> print textnode
<DOM Text node "u'Non nom'">
>>> textnode.nodeType == textnode.TEXT_NODE
True
>>> textnode.nodeValue
u'Non nom'

Answer 6 · 2011-08-18 14:24:32

А замечательную библиотечку ElementTree вы не пробовали? Вроде как, разбирать XML этой штукой намного проще.

P. S. Некоторые по-русски намного хуже пишут, а извиняться и не думают. У вас и ошибок-то почти нет :)

Python и XML

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт