Как связать несвязанные друг с другом теги через bs4?

Question

Дмитрий @Meys313

Beautiful Soup

Как связать несвязанные друг с другом теги через bs4?

В статье идут разделы. Сам код представляет из себя сплошные теги, то есть разделы не обозначены классами, не обернуты, в общем никак не разделены. Через bs4 пытаюсь разобрать код и получить семантические блоки - то есть на условии проверок записать первый h2 в переменную, скажем, раздел 1, параграфы за ним в переменную контент раздела 1, а когда на горизонте появится второй h2 сделать всё тоже самое, только уже записывать данные в переменную раздел 2. Возможно ли реализовать подобную логику на уровне bs4?
Пример:

<h2>Заголовок раздела</h2>
<p>Какой-то контент</p>
<p>Какой-то контент</p>
<p>Какой-то контент</p>
<p>Какой-то контент</p>
<p>Какой-то контент</p>

<h2>Другой заголовок раздела</h2>
<p>Опять какой-то контент</p>
<p>Опять какой-то контент</p>
<p>Опять какой-то контент</p>
<p>Опять какой-то контент</p>
<p>Опять какой-то контент</p>

Вопрос задан более трёх лет назад
30 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Фронтенд-разработчик

11 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 85 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 243 просмотра
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- 17 нояб. 2024
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 255 просмотров
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 82 просмотра
2

ответа
Показать ещё Загружается…

React Native разработчик в VSRAP

VSRAP Shop • Санкт-Петербург

от 150 000 до 220 000 ₽

Системный аналитик

Bitbanker.ru

от 240 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Answer 1 · 2022-02-14 18:24:37

Если вся эта красота лежит в одном родителе (ну или ты можешь засунуть всё это в один список в правильном порядке), то тривиально.

sections = []
current_section = None
paragraphs = []
for tag in tags: # перебираем теги, которые надо обработать
    if tag.name == 'h2':
        if current_section is not None:
            sections.append( (current_section, paragraphs) )
        current_section = tag
        paragraphs = []
    elif tag.name == 'p':
        paragraphs.append(tag)
if current_section is not None:
    sections.append( (current_section, paragraphs) )

В secitons будет лежать список кортежей вида (заголовок, список параграфов) в том порядке, в котором они идут в тексте. Твоя забота - обеспечить правильное значение tags.

Answer 2 · 2022-02-19 21:19:22

from bs4 import BeautifulSoup

OLD_DOC = '''
<html>
<body>
<h2>Заголовок раздела</h2>
<p>Какой-то контент 1</p>
<p>Какой-то контент 2</p>
<p>Какой-то контент 3</p>
<p>Какой-то контент 4</p>
<p>Какой-то контент 5</p>

<h2>Другой заголовок раздела</h2>
<p>Опять какой-то контент 1</p>
<p>Опять какой-то контент 2</p>
<p>Опять какой-то контент 3</p>
<p>Опять какой-то контент 4</p>
<p>Опять какой-то контент 5</p>

<h2>Ещё один заголовок раздела</h2>
<p>Ещё один какой-то контент 1</p>
<p>Ещё один какой-то контент 2</p>
<p>Ещё один какой-то контент 3</p>
<p>Ещё один какой-то контент 4</p>
<p>Ещё один какой-то контент 5</p>
</body>
</html>
'''

NEW_DOC = ''
part_start = OLD_DOC.rfind("<h2>")
while part_start != -1:
    part_stop = OLD_DOC.find('</body>')
    part = OLD_DOC[part_start:part_stop].strip()
    NEW_DOC = f'<div>\n{part}\n</div>\n{NEW_DOC}'
    OLD_DOC = OLD_DOC.replace(part,"")
    part_start = OLD_DOC.rfind("<h2>")

soup = BeautifulSoup(NEW_DOC, 'lxml')
data = soup.find_all('div')
# далее по вкусу

Как связать несвязанные друг с другом теги через bs4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт