Как в XPATH получить содержимое тега вместе с внутренними тегами?

Question

Daniel Reed @Remasik

Как в XPATH получить содержимое тега вместе с внутренними тегами?

Добрый день, есть задача вытащить из html страницы полное содержимое тега, вместе с внутренними тегами.
Например:

<html>
 <body>
  <div class="post">
   text <p> text </p> text <a> text </a>
   <span> text </span>
  <div class="post">
   another text <p> text </p>
 </body>
</html>

И получить нужно первый <div class="post">

text <p> text </p> text <a> text </a>
   <span> text </span>

Пока получается доставать только текст, вот этим выражением (здесь еще игнорирование тега script есть):

(//div[@class="post"])[1]/descendant-or-self::*[not(name()="script")]/text()

Результат: text text text text text

Если использовать node(), то каждый тег возвращается в виде объекта и как все это в строку в виде html превратить не знаю. Возвращается, что-то типа этого (Вот эти <Element p at 0xb62f939c> как преобразовать обратно, не знаю):

[<Element div at 0xb648193c>, u'\u0420\u0430\u0431\u043e\u0442\u0430 \u0441 \u0441\u0443\u0431\u0442\u0438\u0442\u0440\u0430\u043c\u0438', <Element p at 0xb62f939c>, ...]

Есть вариант использовать BeautifulSoup, но я все еще надеюсь на xpath, помогите.

soup = BeautifulSoup(html)
text = [child.strip() if isinstance(child, str) else str(child) for child in soup.find('div', attrs={'class': 'post'})]
text = ''.join(text)
print text

Вопрос задан более трёх лет назад
11257 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Daniel Reed @Remasik Автор вопроса

Пробовал, ни на один html скачанный с помощью requests не отработал (yandex.ru, любой топик rutracker.org), ему нужен безошибочный html?

Написано более трёх лет назад
Daniel Reed @Remasik Автор вопроса

Если использовать parse, то работает прекрасно, спасибо. Но в моем случае не сработает, так как мне html будет приходить в виде строки.

Написано более трёх лет назад
Булат Курбангалиев @ilov3

там есть различные методы составления парсинга html lxml.de/lxmlhtml.html
в вашем случае, если результат приходит в виде строки, то делайте так: html.fromstring(html_string)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 190 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 219 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 613 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 526 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 293 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 544 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 221 просмотр
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 129 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 336 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 673 просмотра
5

ответов
Показать ещё Загружается…

Answer 1 · 2015-12-21 17:25:14

Припоздал конечно.. :)

from lxml.html import fromstring
string = '''<html>
 <body>
  <div class="post">
   text <p> text </p> text <a> text </a>
   <span> text </span>
  <div class="post">
   another text <p> text </p>
 </body>
</html>'''
html = fromstring(string)
post = html.xpath('.//div[@class="post"]')[0].text_content()
print post

Answer 2 · 2015-04-22 14:24:14

Игорь Лютоев @loader777

Python/django разработчик

а /html() - не работает?

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2015-04-22 14:39:19

from lxml import etree

tree = etree.fromstring('<html><head><title>foo</title></head><body><div class="name"><p>foo</p></div><div class="name"><ul><li>bar</li></ul></div></body></html>')
for elem in tree.xpath("//div[@class='name']"):
     # pretty_print ensures that it is nicely formatted.
     print etree.tostring(elem, pretty_print=True)

from lxml import etree, html

tree = html.parse('http://rutracker.org/forum/index.php')
for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

"Ваша Галя балувана"(с)

from StringIO import StringIO
from lxml import etree, html
import requests

c = requests.get('http://rutracker.org/forum/index.php').content

tree = html.parse(StringIO(s))

for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

Как в XPATH получить содержимое тега вместе с внутренними тегами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт