Парсим HTML, вынимаем оттуда неформатированный текст. Python + LXML

Question

ctocopok @ctocopok

Парсим HTML, вынимаем оттуда неформатированный текст. Python + LXML

Стараюсь распарсить блог, в котором публикуются домашние задания для учеников школы. На HTML-странице имеются однозначно определяемые по CSS DIVы, в которых есть текст домашних заданий, к сожалению, с оформлением (наведена красота).
Если взять текст элемента с помощью element.text_content(), получим все подряд и без разметки, то есть ДЗ будет в одну строку, кашей.
Если брать через Xpath, например, spans = elementlist[0].xpath("*/span//text()"), то каждый чих оформления, будь то , ,  и т.п. - будет отдельным элементом, и выводя построчно элементы, получим некрасивый столбик значений, в котором угадать место применения перевода строки будет просто нереально.

Вопрос - как вынуть текст, сохранив переводы строки, но проигнорировать оформление в спаны, жирноту, курсив и т.п.?

Исходный html (пример) доступен по ссылке irina2013-2gymn.blogspot.ru/2013/12/blog-post_4.html

Вопрос задан более трёх лет назад
5716 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 275 просмотров
2

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 156 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 356 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 194 просмотра
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 492 просмотра
2

ответа
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 233 просмотра
3

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 506 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-12-29 16:48:11

Преобразуйте требуемый элемент обратно в HTML, замените ' ','' на переводы строки. Остальные теги просто удалите с помощью re в non-greedy режиме
re.sub("<.*?>","",text)

PS: Для парсинга сайтов вполне подходит grab.

Парсим HTML, вынимаем оттуда неформатированный текст. Python + LXML

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт