Как обойти блокировку сайта от парсинга?

Question

Stepan Sidorov @Stepan47

Я программист, преимущественно на Python, Java, С#

Как обойти блокировку сайта от парсинга?

Вот этот сайт нужно спарсить: https://runcsgo.org.
Этот сайт защищен, и я использую fake-useragent для того чтобы обойти блокировку.
Я ее вроде как прохожу, но получаю совсем не то что на сайте при входе через браузер.
Вот мой код:

import requests as req
from bs4 import BeautifulSoup as BS
from fake_useragent import UserAgent
UserAgent().chrome
html = req.get("http://csgorun.org",headers={'User-Agent': UserAgent().chrome})
soup = BS(html.text, features="html.parser")
print(html)

Я знаю про selenium, но он открывает браузер, поэтому будет мешаться программе.
Скорее всего я как-то не правильно получаю страницу, но точно не уверен, может что-то не так с защитой.
Вообщем если кто знает как решить, напишите, очень поможете.

Вопрос задан более трёх лет назад
3118 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 80 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 92 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 315 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 234 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 658 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 551 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Dr. Bacon, очевидно из того же места, откуда и

Я программист преимущественно на языках Python, C#, Java, в малой степени C++ и JS.
Из языков чисто для сайтов: Django framework, CSS, HTML, в малой степени PHP и JS.
Часто работаю на фриланс биржах.

Answer 1 · 2020-04-24 21:11:52

Кто вам сказал, что там стоит блокировка?
1) Некоторые данные подгружаются по xhr.
2) Также данные на сайте обновляются по websocket.

websockets.readthedocs.io
PyPI websockets 8.1

Answer 2 · 2020-04-25 09:43:22

Вот еще и мой ответ.
Сайт не блокирует меня если я использую UserAgent. Но увы у меня не получилось получить всю страницу с помощью BS4, поэтому я использовал chrome driver но в фоновом режиме.
Вот такой код получился:

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import driver
from time import sleep
from bs4 import BeautifulSoup as BS

ua = dict(DesiredCapabilities.CHROME)
options = webdriver.ChromeOptions()
options.add_argument('headless')
browser = webdriver.Chrome(chrome_options=options)
browser.get('https://csgorun.org/')
soup = BS(browser.page_source,"html.parser")

Спасибо всем кто помогал.

Answer 3 · 2020-04-25 17:00:03

Вот тебе простой код парсера страницы.

from bs4 import BeautifulSoup
import requests
url = 'http://csgorun.org'
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
print(soup)

Как обойти блокировку сайта от парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт