Как на вебстранице найти предложения содержащие URL?
Задача такая: найти в html разметке все предложения, которые содержат хотя бы одну URLподобную подстроку.
url могут быть вида aaa.bbb....(/dir/page/?asdf) - для них подходит такое выражение \S*?\.([a-z.])+(/.*?\s)?) .
Разница между ссылками и не ссылками не важна, предложения могут содержать теги и пр.
Хочу понять, можно ли с помощью регулярных выражений (и без дополнительного кодирования на языке) реализовать такой алгоритм:
нахожу URL, например по указанному шаблону, затем делаю поиск назад до первого сочетания точки+пробельный символ и поиск вперед до такого же сочетания, и все что оказалось между этими позициями получаю в результат.
PS. Использую Python, но в подойдет любой совместимый движок.