Парсим страницу. Как из относительного урла получить полный урл?

Question

wanomgn @wanomgn

Python

Парсим страницу. Как из относительного урла получить полный урл?

Приветствую
простейшая прога дергает определенный урл и выводит список встретившихся там урлов.

import urllib.parse
import requests
from lxml import html

response = requests.get('http://lenta.ru/')
parsed_body = html.fromstring(response.text)
for y in parsed_body.xpath("//a"):
    url=y.get("href")
    print(url)

Получаем примерно такое:
lenta.ru/rubrics/ww1
age.lenta.ru/generation
/rubrics/life/
/parts/text/
/parts/photo/

в данном примере 2 первых урла в полном виде а три последних в относительном.
как "красивше" получить все урлы в полном виде?

Вопрос задан более трёх лет назад
2361 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 12 часов назад
- 51 просмотр
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 86 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 222 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 263 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 167 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 147 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 267 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 152 просмотра
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 146 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 159 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-10-22 12:26:54

https://docs.python.org/2/library/urlparse.html#ur...

Там много чего может встретиться, лучше готовым пользоваться сразу

Answer 2 · 2014-10-22 12:01:37

Sergey Lerg @Lerg

Defold, Corona, Lua, GameDev

if not url.startswith("http:"):
  url = baseUrl + url

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2014-10-22 14:26:25

import urlparse

chunks = urlparse.urlparse('/path/?query=1')
if not chunks.netloc:
     # относительный url
     chunks = list(chunks)
     chunks[1] = 'lenta.ru'
     print urlparse.urlunparse(chunks)

Answer 4 · 2014-10-22 15:26:45

Вариантов много, вот нативный код без импорта библиотек. baseurl должен быть в полном виде с указанием протокола.

def geturl(href, baseurl):
   domain = [i for i in baseurl.split('/') if i][1]
   proto = [i for i in baseurl.split('/') if i][0]
   protos = ['https://', 'http://', 'ftp://',]
   for i in protos:
      if href.startswith(i):
          return href
   if href.startswith('/'):
      return proto + '://' + domain + href
   if baseurl.endswith('/'):
      return baseurl + href
   return '/'.join(baseurl.split('/')[:-1]) + url

Парсим страницу. Как из относительного урла получить полный урл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт