Почему не срабатывает регулярное выражение с тегом?

Question

The_Immortal @The_Immortal

Почему не срабатывает регулярное выражение с тегом?

Пытаюсь выдрать текст, используя рег. выражение, под тегом , который находится внутри определенной таблицы:

soup = BeautifulSoup(resArrow, 'lxml')
tbl = soup.find('tbl', id='maintbl')

for nobr in tbl.find_all('nobr', text=re.compile("MB")):
	# ничего не находится

Пример вывода содержимого одно из нужных тегов :

<nobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>

print (nobr.getText()) выдает

1895.35 MB2,55 tlm

В общем, ключевое "MB" есть, но почему-то в моей регулярке оно не подхватывается. Я уже пробовал и так:

for nobr in tbl.find_all('nobr', text=re.compile(".*MB.*")):

Да и просто указалывал точную строку

for nobr in tbl.find_all('nobr', text="1895.35 MB2,55 tlm"):

for nobr in tbl.find_all('nobr', text="1895.35 MB"):

, но также ничего не находилось.

В чем может быть проблема?

Спасибо!

P.S. Понимаю, что вместо регулярки можно принимать все теги  подряд и уже далее выполнять сравнение :

for nobr in tbl.find_all('nobr'):
    if "MB" in nobr.getText(): # так работает

, однако очень хочется разобраться что не так с регуляркой.

Вопрос задан более трёх лет назад
173 просмотра

3 комментария

Подписаться 1 Простой 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

14 комментариев

The_Immortal @The_Immortal Автор вопроса
Так не срабатывает:
for nobr in tbl.find_all('nobr', text=re.compile("\s\d*,\d\d\s+MB(\s+|$)")):
Что-то не так сделал?

И, кстати, а можно как-то сделать более универсальную регулярку? Что-то типа *MB* - т.е. вообще неважно что до (любые знаки) искомой строки и что после? Что-то мне казалось, что это не так сложно...
Написано более трёх лет назад
Viktor T2 @Viktor_T2

там короче вотети \s это пробелы(или непечатываемые знаки) надо их убрать.
\d*,\d\d\s+MB
более универсальную регулярку сделать можно - все в ваших руках
https://regex101.com/r/TdncQ7/2

Написано более трёх лет назад
The_Immortal @The_Immortal Автор вопроса
Viktor T2, не, не хочет. У меня там во-первых точка, а не запятая:

for nobr in tbl.find_all('nobr', text=re.compile("\d*.\d\d\s+MB")):

Однако не фурычит.
Написано более трёх лет назад
The_Immortal @The_Immortal Автор вопроса
Viktor T2, по идее

for nobr in tbl.find_all('nobr', text=re.compile("\d*.\d\d\s+MB")):
ищет по тегу и соответствующему тексту внутри нем (содержимому)...

Ладно, пойду ещё где-нибудь народ помучаю...

Благодарю за помощь!
Написано более трёх лет назад
Viktor T2 @Viktor_T2

Я думаю проблема не с регулярками, а с супом, гдето что-то не-то, просто с супом неохото разбираться сечас.

Написано более трёх лет назад
DENIS Kokorev @shmaroder
The_Immortal, Из описании задачи плохо понял.
1. Из этого:

1895.35 MB <a href="down.php?id=555">2,55 tlm</a>

Надо это?
1895.35 MB2,55 tlm
------------------------------------------------------
2. Или из этого:

вап пв<>ы; 19%#вапва 1895.35 MB <a href="down.php?id=555">2,55 tlm</a> вап 546sd5/

Надо это?
1895.35 MB
Написано более трёх лет назад

The_Immortal @The_Immortal Автор вопроса

DENIS Kokorev, дано:

<nobr><br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<nobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<nobr><br/><a href="down.php?id=555"><b>2,56 tlm</b></a></nobr>
<nobr>1896.36 GB<br/><a href="down.php?id=555"><b>2,57 tlm</b></a></nobr>
<nobr>1896.36 MB<br/><a href="down.php?id=556"><b>2,58 tlm</b></a></nobr>

Надо выйти через регулярку на следующий результат:

1895.35 MB
1896.36 MB

Написано более трёх лет назад

Viktor T2 @Viktor_T2

from bs4 import BeautifulSoup
import re

html_doc = """
<nobr><br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<nobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<nobr><br/><a href="down.php?id=555"><b>2,56 tlm</b></a></nobr>
<nobr>1896.36 GB<br/><a href="down.php?id=555"><b>2,57 tlm</b></a></nobr>
<nobr>1896.36 MB<br/><a href="down.php?id=556"><b>2,58 tlm</b></a></nobr>
"""
tbl = BeautifulSoup(html_doc, 'lxml')

for nobr in tbl.find_all( text=re.compile("\d*.\d\d\s+MB")):
    print(nobr)

Написано более трёх лет назад

Viktor T2 @Viktor_T2

Есть пара книжек по регулякам, если интересно:
Майкл Фицджеральд - Регулярные выражения. Основы - 2015.pdf
Рецепты - более полезная и практичная:
Ян Гойвертс, Стивен Левитан - Регулярные выражения. Сборник рецептов, 2-е издание - 2015.djvu

Написано более трёх лет назад
The_Immortal @The_Immortal Автор вопроса

Viktor T2, проблема в том, что мне надо делать поиск именно в рамках тега , а не по всему документу, потому как лишней инфы куча может попасть, что в свою очередь создает приличные временные затраты.

Написано более трёх лет назад
Viktor T2 @Viktor_T2

Ну это надо суп глубже втыкать - я не буду. Смысл моего ответа в том,
что дело не в регулярках, а в манипуляциях с супом.

Написано более трёх лет назад
DENIS Kokorev @shmaroder

The_Immortal.
Оказывается внутри nobr. Т.е. вокруг еще шлак может быть. Ты и пример тогда приводи достоверный. Почему вопрос надо среди комментариев отыскивать? Вот доработал:

https://regexr.com/5bqd8

Написано более трёх лет назад
DENIS Kokorev @shmaroder

The_Immortal, еще раз https://regexr.com/5bqd8

Написано более трёх лет назад

Viktor T2 @Viktor_T2

The_Immortal, Вот еще, держи:

from bs4 import BeautifulSoup
import re

html_doc = """
<nobr><br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<nobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
<bobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></bobr>
<nobr><br/><a href="down.php?id=555"><b>2,56 tlm</b></a></nobr>
<nobr>1896.36 GB<br/><a href="down.php?id=555"><b>2,57 tlm</b></a></nobr>
<nobr>1896.36 MB<br/><a href="down.php?id=556"><b>2,58 tlm</b></a></nobr>
<br>1896.36 MB<br/><a href="down.php?id=556"><b>2,58 tlm</b></a></br>
"""
tbl = BeautifulSoup(html_doc, 'lxml')

tmpt = re.compile("\d*.\d\d\s+MB")

for nobr in tbl.find_all('nobr'): 
    result = re.search(tmpt, str(nobr))
    if result: print(result.group(0))

Написано более трёх лет назад

Ваш ответ на вопрос