Как удалить теги в beautifulsoup? Или почистить найденный тег от внутренних тегов, оставив внетеговое содержимое?

Question

Максим Зубенко @JawsIk

Python Django, Lua, ЧПУ-станки(ArtCam, Aspire)

Python

Как удалить теги в beautifulsoup? Или почистить найденный тег от внутренних тегов, оставив внетеговое содержимое?

Скачиваю страницу при помощи requests.

r = requests.get(url)
html = r.text

Через beautifulsoup4 пытаюсь распарсить:

soup = BS(html, "lxml")
content = soup.find("div", class_="main_left").find("div", class_="content")
subject = content.find("h1", class_="news_title").text
text = content.find("div", class_="news_text")

text получается приблизительно с вот таким содержанием:

<div class="news_text">
\r\n\r\n\t\tЭто своего рода начальный абзац, как оказалось, 
он идёт вне каких-то тегов, просто такой вот абзац, 
иногда он на несколько строк, 
но он находиться вот прямо так сразу просто в диве.\r\n\r\n\t\t
<p>\r\n\r\n\t\tКакой-нибудь абзац с каким-нибудь текстом, 
обычно тоже на несколько строк\r\n\r\n\t\t</p>
<p>\r\n\r\n\t\tЕщё абзац, но уже содержащий какой-нибудь финт для рекламы 
типа <span></span>
<script>тут какой-нибудь скрипт на 5-7 строк</script>
\r\n\r\n\t\t</p>
<p>\r\n\r\n\t\tЕщё один абзац, тоже может содержать что-то лишнее 
или текст с <a href="https://toster.ru"><strong>какой-нибудь ссылкой</strong></a>, 
а потом продолжается ещё текст.\r\n\r\n\t\t</p>
</div>

Если я просто суповским методом попытаюсь всё сразу преобразовать в текст ( text.text ) , то во-первых теряются абзацы, а они мне нужны.
А во-вторых в этот текст попадает содержимое скриптов, и текст сразу не пригоден (при этом если я каждый абзац чищу, то скрипты не попадают в текст, но об этом ниже).
И вот например я могу легко взять теги p и почистить их в текст:

pre_abz = text.find_all('p')
abz = []
for a in pre_abz: abz.append(a.text.strip())

И да, действительно я получаю в абзацах всё, что находилось в тегах p и при этом всё чистенько, без "\r\n\r\n\t\t" , ссылок и скриптов.
Но мне нужен ещё и самый первый текст. Тот, который в моём примере начинается со слов Это своего рода начальный абзац...
Как его достать без использования регулярок, ума не приложу.
По сути дела, мне нужно убрать все дочерние теги в переменной text, но при этом чтобы осталось внетеговое содержимое.
Но я такого в документации не могу найти.
Пробовал сделать:
text.replace_with_children
на выходе получаю пустой див:
<div class="news_text"></div>
Будьте добры, подскажите, как этот текст красиво достать, что сделать?
С уважением.

Вопрос задан более трёх лет назад
5584 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 71 просмотр
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 239 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 229 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 632 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-10-29 19:03:49

В общем нашёл сам, через суповский contents

По сути концовка теперь стала такой:

abz = []
        first_text = text.contents[0]
        abz.append(str(first_text).strip())

        for a in text.find_all("p"):
            abz.append(a.text.strip())

но если кто-то знает решение проще, то пожалуйста напишите, я всегда рад изящным решениям.

Answer 2 · 2020-03-23 03:02:37

Сергей Андриевский @Andriyevski

print(text.get_text())
Вот и все !

Ответ написан более трёх лет назад

1 комментарий

Как удалить теги в beautifulsoup? Или почистить найденный тег от внутренних тегов, оставив внетеговое содержимое?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт