Ответы пользователя devdb по тегу «Регулярные выражения» — Хабр Q&A

Задать вопрос

Ответы пользователя по тегу Регулярные выражения

Как найти ссылку в строке полностью?
devdb @devdb
Как вариант (не единственно возможное решение):

pattern = r'(<a rel=")(.+?)(">)' splitted = re.split( pattern, html_str ) # splitted == [ '<html>...', '<a rel="', 'http://site.com/image1.jpg', '">', '<div>...', '<a rel="', 'http://site.com/image2.jpg', '">', ... ] urls = splitted[2::4] # urls == ['http://site.com/image1.jpg', 'http://site.com/image2.jpg', ... ]

Далее проходите по splitted в цикле с шагом 4, и, если image не удовлетворяет условию, удаляете текущие [ '<a rel="', 'http://site.com/image2.jpg', '">' ] из списка splitted или заменяете их на что-то (например, на "название ссылки").

А после чистки:
cleaned_html_str = ''.join(splitted)

Ответ написан более трёх лет назад

Комментировать
Комментировать

Самые активные сегодня

Мизам
- 1 ответ
- 1 вопрос
Portnova1975
- 1 ответ
- 0 вопросов
I.CaR Soft
- 0 ответов
- 1 вопрос
Денис Давыденко
- 0 ответов
- 1 вопрос
Daemon23RUS
- 1 ответ
- 0 вопросов
goctio
- 1 ответ
- 0 вопросов