Как при парсинге с помощью bs4 при отсутствии тэга получить ''?

Question

pypyshka @pypyshka

Python

Как при парсинге с помощью bs4 при отсутствии тэга получить ''?

Всем привет!

Столкнулся с такой задачей. При парсинге xml с помощью Beautiful soup получаю неверный результат. Например, есть суп:

<xy:a>
    <xz:b>1</xz:b>
    <xz:d>2</xz:d>
</xy:a>
<xy:a>
    <xz:b>3</xz:b>
    <xz:c>4</xz:c>
    <xz:d>5</xz:d>
</xy:a>

Пытаюсь получить данные:

get_b = soup.find_all("xy:a")
get_b_str = str(get_b)
get_b_re = re.findall(r"<xz:b>(.*?)</xz:b>", get_b_str)

get_c = soup.find_all("xy:a")
get_c_str = str(get_c)
get_c_re = re.findall(r"<xz:c>(.*?)</xz:c>", get_c_str)

get_d = soup.find_all("xy:a")
get_d_str = str(get_d)
get_d_re = re.findall(r"<xz:d>(.*?)</xz:d>", get_d_str)

В итоге получаю: get_b_re = ['1', '3'], get_c_re = ['4'], get_d_re = ['2', '5'].
При попытке вставить эти данные в БД:

result = list(zip_longest(get_b_re, get_c_re, get_d_re, fillvalue=''))
sql = 'INSERT INTO table (b, c, d) VALUES (?, ?, ?)'
cur.executemany(sql, result)

я получаю в таблице:
b | c | d
1 | 4 | 2
3 | - | 5
что неправильно. Можно ли как-то при отсутствии тэга "xz:c" в первом случае получить get_c_re = ['', '4']?

Вопрос задан более трёх лет назад
367 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 328 просмотров
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 234 просмотра
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 283 просмотра
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 280 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 315 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 103 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 118 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 128 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 487 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-12-21 12:28:48

В общем я задачу решил так:

for a in soup.find('xy:a').parent.find_all('xy:a'):
    get_b = re.findall(r"<xz:b>(.*?)</xz:b>", str(a))
    get_c = re.findall(r"<xz:c>(.*?)</xz:c>", str(a))
    get_d = re.findall(r"<xz:d>(.*?)</xz:d>", str(a))
    result = list(zip_longest(get_b, get_c, get_d, fillvalue=''))
    sql = 'INSERT INTO table (b, c, d) VALUES (?, ?, ?)'
    cur.executemany(sql, result)

Получаю:
b | c | d
1 | '' | 2
3 | 4 | 5

Answer 2 · 2016-12-21 01:21:44

<xy:a>
    <xz:b>3</xz:b>
    <xz:c>4</xz:c>
    <xz:d>5</xz:d>
</xy:a>

Если в супе нету пустого значения тогда рсчитывайте размер матрицы и проверяйте на отсутсвие елементов.

Как при парсинге с помощью bs4 при отсутствии тэга получить ''?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт