Как забрать html код со страницы?

Question

kraz12345 @kraz12345

Как забрать html код со страницы?

Всех приветствую!

Пытался забрать html простым реквестом, получалась не очень, попробовал через selenium - получил то же самое.
Подскажите, пжлст, как забрать страницу, или куда смотреть ?
Заранее, спасибо большое !!!
Код

import requests
from bs4 import BeautifulSoup
import lxml
from selenium import webdriver
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}
proxies = {
    'https': 'http://146.247.105.71:4827'
}


def get_location(url):
    response = requests.get(url, headers=headers, proxies=proxies)
    soup = BeautifulSoup(response.text, 'lxml')
    print(soup, '\n\n\nlox\n\n\n')

    options = webdriver.ChromeOptions()
    options.add_argument('--proxy-server=146.247.105.71:4827')
    driver = webdriver.Chrome(
        options=options
    )
    driver.get(url)
    response = driver.page_source
    time.sleep(5)
    print(response)


def main():
    get_location(url='https://www.skiddle.com/festivals/dates.html')


if __name__ == '__main__':
    main()

Часть того, что получаю на выходе (как пример):

Вопрос задан более года назад
620 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

Решения вопроса 1

4 комментария

kraz12345 @kraz12345 Автор вопроса

у меня почему то по Вашему коду выходит ошибка соединения с сайтом

а вообще я наверное не совсем правильно сформулировал вопрос - html у меня получается получить, но там наверное js скрипты, или еще что - то (полученная разметка отличается от разметки на странице сайта, в дополнение к выше попробовал через session - тоже не получилось)

но все равно пасибо:)

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

kraz12345,

у меня почему то по Вашему коду выходит ошибка соединения с сайтом

Проблемы с прокси.

Пытался забрать html простым реквестом, получалась не очень

Как забрать html код со страницы?

а вообще я наверное не совсем правильно сформулировал вопрос - html у меня получается получить

Ну что Вы, вроде все правильно.

html у меня получается получить, но там наверное js скрипты, или еще что - то (полученная разметка отличается от разметки на странице сайта, в дополнение к выше попробовал через session - тоже не получилось)

Ниче не понятно.

но все равно пасибо:)

Здесь принято нажимать соответствующие кнопки под ответом.

Написано более года назад
kraz12345 @kraz12345 Автор вопроса

да, сорри,
но просто это не совсем то, что я имел в виду - я имел в виду, что часть html разметки подгружается js скриптами, и, я не понимаю, как забрать html, котрый я вижу на сайте (приходит разметка до подгрузки через request, selenuim, session)
мне нужно достать ссылки на страницу каждого фестиваля

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

kraz12345, создавайте новый вопрос, максимально подробно описав то, что Вы хотите. Js ajax подгрузку контента можно так же дождаться в selenium.

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 8 часов назад
- 63 просмотра
0

ответов
Python

Простой
Почему не получается создать профиль в программе DolphinAnty?
- 1 подписчик
- 12 часов назад
- 47 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 178 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 107 просмотров
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 90 просмотров
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 22 июл.
- 76 просмотров
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- 21 июл.
- 74 просмотра
0

ответов
Python

+1 ещё

Простой
Как торговать фьючерсами через API MEXC?
- 2 подписчика
- 19 июл.
- 393 просмотра
1

ответ
Python

+1 ещё

Простой
Есть ли кд на отправку подарков от имени бота?
- 2 подписчика
- 19 июл.
- 186 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать символьные вычислениями в питоне для поиска стационарных точек системы диффуров?
- 1 подписчик
- 16 июл.
- 209 просмотров
0

ответов
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Разработчик Python

Bell Integrator • Москва

Python разработчик

Bell Integrator • Москва

Напишите код ошибки текстом, а так же то, что Вы ожидаете увидеть в результате успешного выполнения скрипта.

Answer 1 · 2024-02-06 09:49:20

Пытался забрать html простым реквестом, получалась не очень

попробовал через selenium - получил то же самое

Не spa, не ajax и защиты нет, а значит request вполне справится, ниже рабочий пример, который печатает всю html страницу (российские ip блочат (403), использовал рабочий socks5):

import requests
import socks
import socket

socks.set_default_proxy(socks.SOCKS5, "45.56.219.55", 52759)
socket.socket = socks.socksocket

url = 'https://www.skiddle.com/festivals/dates.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
    print(response.text)

except requests.exceptions.HTTPError as errh:
    print("Http Error:", errh)
except requests.exceptions.ConnectionError as errc:
    print("Connecting Error:", errc)
except requests.exceptions.Timeout as errt:
    print("Timeout Error:", errt)
except requests.exceptions.RequestException as err:
    print("Other Error", err)

print(response.text)

<!DOCTYPE html>
<!--[if lt IE 7]><html class='ie ie6 lte9 lte8 lte7 no-js'> <![endif]-->
<!--[if IE 7]><html class='ie ie7 lte9 lte8 lte7 no-js'> <![endif]-->
<!--[if IE 8]><html class='ie ie8 lte9 lte8 no-js'> <![endif]-->
<!--[if IE 9]><html class='ie ie9 lte9 no-js'> <![endif]-->
<!--[if gt IE 9]><html class='ie no-js'><![endif]-->
<!--[if !IE]><!--> <html class='no-ie no-js' lang='en'><!--<![endif]-->

<head><!-- Basic Page Needs
================================================== -->
<title>A-Z of Future Festivals</title>
<link rel="manifest" href="/manifest.json">
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><!-- DNS Prefetching
================================================== -->




<link rel="preconnect" href="https://d31fr2pwly4c4s.cloudfront.net"/>
<link rel="preconnect" href="https://d1plawd8huk6hh.cloudfront.net"/>
<link rel="preconnect" href="https://www.google-analytics.com" />


<link rel="preload" href="https://d1plawd8huk6hh.cloudfront.net/css-responsive2/fonts/BuenosAires/BuenosAiresWeb1-Regular_gdi.woff2" as="font" type="font/woff2" crossorigin="anonymous">
<link rel="preload" href="https://d1plawd8huk6hh.cloudfront.net/css-responsive2/fonts/BuenosAires/BuenosAiresWeb1-Bold_gdi.woff2" as="font" type="font/woff2" crossorigin="anonymous">


<link rel="dns-prefetch" href="https://d31fr2pwly4c4s.cloudfront.net"/>
<link rel="dns-prefetch" href="https://d1plawd8huk6hh.cloudfront.net"/>
<link rel="dns-prefetch" href="https://www.google-analytics.com" />
<link rel="dns-prefetch" href="//connect.facebook.net" />
<link rel="dns-prefetch" href="//www.googleadservices.com" />
<link rel="dns-prefetch" href="//www.stay22.com" />
<link rel="dns-prefetch" href="//api.stay22.com" />
<link rel="dns-prefetch" href="//skiddle.imgix.net" />
<link rel="dns-prefetch" href="//skiddleartists.imgix.net" />

<!-- CSS
================================================== -->

<meta property="fb:app_id" content="102483650494"/>
<meta http-equiv="x-dns-prefetch-control" content="on"/>
<meta name="insight-app-sec-validation" content="5574b896-289f-48c0-aebb-98730b831151">

<!-- Mobile Specific Metas
================================================== -->
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
...

Как забрать html код со страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт