@Suohit

Как извлечь ссылку исходного кода сайта, используя Python?

Есть сайт 1 "example.com/sometext/etc" (ненастоящий, просто для примера). На данной странице находится изображение, которое в свою очередь хранится на стороннем ресурсе. В исходном коде сайта 1 есть ссылка на источник этого изображения. Пытался извлечь исходный код страницы, используя библиотеку urllib:
import urllib.request


URL = 'http://example.com/sometext/etc'
site = urllib.request.urlopen(URL)
print(site.read())

После чего найти ссылку не составило бы труда. Но сайт выдаёт следующую ошибку: "urllib.error.HTTPError: HTTP Error 403: Forbidden", о её значении я знаю. Почему я не могу получить доступ к сайту таким образом, если доступ непосредственно из браузера к странице есть? Может я что-то делаю не так?
  • Вопрос задан
  • 248 просмотров
Решения вопроса 1
@s4q
Для создания запросов лучше использовать requests.
import requests

resp = requests.get('http://example.com/sometext/etc').text
print(resp)

А затем парсить через bs4
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
SoreMix
@SoreMix Куратор тега Python
yellow
Заголовки установите нужные, User-Agent и прочее
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы