Как найти все URL и URI внутри HTML с помощью Python?

Question

Сергей Еремин @Sergei_Erjemin

Улыбайся, будь самураем...

Как найти все URL и URI внутри HTML с помощью Python?

Вообще-то URL надо еще и подменить-обернуть (пробую сделать что-то типа веб-прокси на Django) но это уже мелочи. Сначала надо найти URL и URI... Для простоты буду все называть URL.

Я знаю о существовании BeautifulSoup и его возможностях по разбору (и замене) внутри HTML. Но в реальности задача оказывается ему не по зубам.

Для начала URL может встречаться не только в <a href="URL">что-то</a> или <img src="URL" /> , но и в <link href="URL" />, в <script src="URL"></script>, в <iframe src="URL" ... а еще в стилях (например, как background-image:url(URL) или @import url(URL) ...), а ещё во встроенных SVG (например, как <a xlink:href="URL")... и так далее.

Кроме того, URL может встречаться в конструкциях типа

<object data="URL" type="image/svg+xml" ...></object>

... а еще бывает, что BeautifulSoup обнаруживает, что-то, что похоже на URL, но это им не является (например, как в конструкции типа <img src='data:image/jpeg;base64).

Все эти варианты найти с помощью BeautifulSoup и дальше разобрать не просто, но всё ещё можно. Но BeautifulSoup не поможет, если некоторые HTM-теги не закрыты. Например, попадется конструкция <link href="URL"> (без финализирующей />) и тогда BeautifulSoup "проглотит" весь HTML до следующего <link> (а его может больше и не быть на странице... к слову если стил написания HTML-кода "не закрывать теги", то BeautifulSoup вообще бессилен).

Если же использовать регулярные выражения, то все становится очень сложно, т.к. URL внутри HTML может быть не оформлен в кавычки (и тогда он воспринимается до ближайшего пробела). Или иметь произвольные пробельные символы (например:
html

<a href
=
"URL"> ...

Я думаю случаев употребления URL намного больше. Я уж не говорю про случаи когда URL встречается внутри встроенного в JavaScript (а там иногда стараются скрыть URL от паркинга... впрочем раз скрывают, то и пусть так и будет... но "открытые" URL хотелось бы обнаруживать).

И как это все разобрать? Написать универсальное регулярное выражение для всех случаев -- не способен. BeautifulSoup, как я объяснил, не всегда помогает. Есть ли какие-нибудь альтернативы по обнаружению URL?

Вопрос задан более трёх лет назад
236 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Сергей Еремин @Sergei_Erjemin Автор вопроса

Ссылки могут быть относительными, (включая идиотские herf="../../folder/image.gif"), от корня сайта, от корня протокола (это когда вот так пишут src="//site.com/bla-bla-bla"... а ещё могут быть ссылки на якорь (href="#ancor")... и добавим GET-параметры...

BeautifulSoup ну вот много что мне нужно позволяет, но незакрытые теги -- просто беда... Он и с обычными унарными тегами вытворяет глупости, типа: <link href="URL1" /> превращает в <link href="URL2"></link>... Но это ещё терпимо. Но с незакрытыми -- вообще ад случается... :( А в жизни, в интеретах, незакрытые теги, к сожалению, --очень частое явление...

Написано более трёх лет назад
Vindicar @Vindicar

Сергей Еремин,
Если твой веб-прокси даёт в итоге URL вида https://my.proxy/target.site/path/in/target.html, то большинство относительных ссылок сработают и так.
Исключение составят ссылки от корня сайта (/another/page.html), но их можно детектить, и они будут встречаться не так часто.
Ссылки без протокола тоже детектятся с минимальным исправлением в регулярке, типа (https?:)?//
Ссылки на якори вообще не должны менять страницу, а потому не нуждаются в обработке.
GET параметры и прочее должны подхватиться группой .+, до тех пор пока в get параметре нет незакодированной в urlencode кавычки или апострофа - но в то же время, если такая кавычка есть, то это уже будет сломанная напрочь XML разметка. Тут ничего не поделаешь.

Ещё можно попробовать другой подход.
Используй xml.sax. Я не до конца уверен, что он не подавится XML с незакрытыми тегами - это надо проверить. Но по идее на его основе можно написать простую автозакрывашку тегов. Просто хранить стэк текущих открытых тегов, при открытии тега - добавлять его на стэк, при закрытии тега - выталкивать теги со стэка и закрывать их, пока не найдём совпадающий тег.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 234 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 249 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 89 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1013 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 557 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Answer 1 · 2021-12-09 20:21:49

Я бы всё же копал в сторону регулярок. Слишком уж много мест где URL могут встретиться.
Так что я бы сказал примерно такое...
(["'])(https?://.+?)\1
Т.е. "в начале кавычка или апостроф, затем что-то, начинающееся с http:// или https://, потом любые символы, но как можно меньше, а потом тот же символ что и в начале".
Написал маленький скрипт, натравил его на исходник этой страницы - по-моему, работает неплохо.

Как найти все URL и URI внутри HTML с помощью Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт