Как красивее распарсить не совсем стандартный html?

Question

User . @nekolov

Как красивее распарсить не совсем стандартный html?

Добрый день,

есть ряд страниц которые я удачно распарсил с помощью библиотеки beautifulsoup, но есть несколько полностью аналогичных страниц НО с местами где я не совсем уверен что выбрал максимально простое решение. Проблема в том что в зависимости от страницы интересующие меня значения могут содержатся в немного отличающихся тегах, также не совсем ясно как и за что я могу 'зацепится' если буду использовать beautifulsoup а не regex если данные содержатся в единичном закрывающем теге.

Интересующие меня данные с 1 страницы

<br/>Some text</br>
<br/>Some text</br>

Интересующие меня данные с 2 страницы(как видно закрывающие теги уже другие)

<br/>Some text</div>
<br/>Some text <a href=....

Вот какой вариант пока пробую использовать я для получения значений(уточню что я далеко не мастер в регулярных выражения) с обоих вариантов верстки:

tmp = re.findall('<br/>(.*)<br/>|<br/>(.*) <a|<br/>(.*)</div', str(html))
print(tmp)

Но как видно он возвращает много пустых элементов, если честно я даже не совсем понимаю почему:
[('some text', '', ''), ('some text', '', '')]
Как проще всего получить интересующие меня значения?

Вопрос задан более трёх лет назад
41 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Хекслет

Python-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 290 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 156 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 250 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 231 просмотр
2

ответа
Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 86 просмотров
1

ответ
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 236 просмотров
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 151 просмотр
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 261 просмотр
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая
- 142 просмотра
2

ответа
Показать ещё Загружается…

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Инженер

Ростелеком • Москва

от 73 560 до 94 700 ₽

Инженер оборудования связи

Ростелеком • Москва

от 69 900 до 89 950 ₽

Потому что НЕЛЬЗЯ использовать регулярные выражения для парсинга HTML, XML, CSS, языков программирования и т.д.

Answer 1 · 2019-05-27 15:02:09

dodo512 @dodo512

tmp = re.findall('<br/>(.*?)(?:<br/>|<a |</div)', str(html))
print(tmp)

Ответ написан более трёх лет назад

Комментировать

Как красивее распарсить не совсем стандартный html?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт