@Suohit

Как извлечь ссылку исходного кода сайта, используя Python?

Есть сайт 1 "example.com/sometext/etc" (ненастоящий, просто для примера). На данной странице находится изображение, которое в свою очередь хранится на стороннем ресурсе. В исходном коде сайта 1 есть ссылка на источник этого изображения. Пытался извлечь исходный код страницы, используя библиотеку urllib:
import urllib.request


URL = 'http://example.com/sometext/etc'
site = urllib.request.urlopen(URL)
print(site.read())

После чего найти ссылку не составило бы труда. Но сайт выдаёт следующую ошибку: "urllib.error.HTTPError: HTTP Error 403: Forbidden", о её значении я знаю. Почему я не могу получить доступ к сайту таким образом, если доступ непосредственно из браузера к странице есть? Может я что-то делаю не так?
  • Вопрос задан
  • 59 просмотров
Решения вопроса 1
@s4q
Для создания запросов лучше использовать requests.
import requests

resp = requests.get('http://example.com/sometext/etc').text
print(resp)

А затем парсить через bs4
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
SoreMix
@SoreMix
yellow
Заголовки установите нужные, User-Agent и прочее
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
от 130 000 ₽
deeplay Новосибирск
от 130 000 ₽
Enjoy PRO Санкт-Петербург
от 140 000 до 180 000 ₽
26 окт. 2020, в 13:50
5000 руб./за проект
26 окт. 2020, в 13:47
2000 руб./за проект
26 окт. 2020, в 13:38
1500 руб./за проект