Как спарсить динамический сайт?

Question

black_dis @black_dis

Python

Как спарсить динамический сайт?

https://forum.malinovka.org/topic/13323-список-дей...
С данного сайта нужно спарсить лидеров и информацию по ним.
При обычном req запросе, получаю "Please turn JavaScript on and reload the page." и не могу вытащить нужную информацию.

Код будет использоваться не мной.

import requests
from bs4 import BeautifulSoup

headers = {"user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"}
res = requests.get("https://forum.malinovka.org/topic/13323-список-действующих-лидеров/", headers = headers)
soup = BeautifulSoup(res.content, "html.parser")

all_liders = soup.findall("div", class_ = "ipsType_normal ipsType_richText ipsContained")

Вопрос задан более трёх лет назад
112 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

black_dis @black_dis Автор вопроса

Правильно ли я понимаю, что сел использует браузер установленный для ПК, дабы зайти на сайт?

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

black_dis, да - используется драйвер к установленному броузеру на компьютере.

Написано более трёх лет назад
black_dis @black_dis Автор вопроса

Владимир Куц, Но загвоздка в том, что код будет использоватья не мной и скорее всего будет залит на хост. Есть ли иное решение проблемы, помимо селениума?

Написано более трёх лет назад
Рамис @ramzis

black_dis, Что значит?
Но загвоздка в том, что код будет использоватья не мной и скорее всего будет залит на хост
, в чем проблема залить на хост вебдрайвер вместе с проектом.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 12 часов назад
- 79 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 89 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 330 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 665 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 553 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 568 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2021-10-22 13:58:45

Владимир Куц @fox_12 Куратор тега Python

Расставляю биты, управляю заряженными частицами

Берете Selenium - и вперед...

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2021-10-22 17:38:05

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from selenium import webdriver
import time

URL = 'https://forum.malinovka.org/topic/13323-список-действующих-лидеров/'

options = webdriver.ChromeOptions()
driver = webdriver.Chrome(executable_path="chromedriver.exe", options=options)
driver.get(url=URL)
time.sleep(2)
useragent = UserAgent()
needed_html_code = driver.page_source
driver.close()
driver.quit()

soup = BeautifulSoup(needed_html_code, "html.parser")

content_div = soup.find('div', class_='cPost_contentWrap ipsPad')
for p in content_div.find_all('p')[1:]:
	for item in p.contents:
		print(str(item.string).replace('None', ''), end='\n')
	print("-"*15)

Вам нужно установить webdriver (в моём случае chrome) для работы кода. Если будете ставить код на heroku, к примеру, то там можно дополнительно его установить.

Как спарсить динамический сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт