Не могу спарсить элементы страницы с непонятными классами почему?

Question

Fallervood @Fallervood

Не могу спарсить элементы страницы с непонятными классами почему?

Хочу освоиться в парсинге. Уже писал что-то и даже получалось. Спустя время решил к этому вернуться. Начал писать новый парсер и изучать все почти с нуля. Для примера захотел спарсить информацию о матчах на букмекерском сайте parimatch. Но при попытке взять элементы с информацией, он их не может найти или возвращает пустой объект. Почему?
P.S. Почитал много чего на формумах, попробовал использовать селениум, та же история.

import requests
from bs4 import BeautifulSoup


URL = 'https://www.parimatch.ru/'
HEADERS = {
    'accept': 'image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.63'
}


# Получение html
def get_html(url, params=''):
    html = requests.get(url).text
    return html  # Возврат полученной страницы


# Поиск нужного контента
def get_content(html):
    soup = BeautifulSoup(html, "html.parser")
    items = soup.find_all('div', {'class': 'QHMOkrbtqvSkGzF6oZD2a'})
    print(items)


if __name__ == '__main__':
    html = get_html(URL)
    get_content(html)

Вывод:

[]
Process finished with exit code 0

Вопрос задан более трёх лет назад
153 просмотра

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

4 комментария

Fallervood @Fallervood Автор вопроса

Спасибо за насыщенный ответ! Только id мне по сути ничего не дает, переходя на страницу с матчем такая же история. Есть варианты как взять то что подгружает скрипт?

Написано более трёх лет назад
MinTnt @MinTnt

Fallervood, там я не до конца смотрел, но там информация подгружается, но в кодировке другим ещё каким-то скриптом. А в кодировке она - чтоб так просто не нашли. После загрузки на сайт, она обратно дешифруется и становиться нормальной.

Написано более трёх лет назад
MinTnt @MinTnt

Fallervood, Fallervood, Ну а вообще, я же вроде описал, что вот тут https://www.parimatch.ru/content/strapi/system/graphql? делая запрос в базу, и указывая ID, мы как раз и получаем название матчей, и некоторую другую полезную инфу, которую потом можно рассшифровать другими запросами

Написано более трёх лет назад
Fallervood @Fallervood Автор вопроса

Спасибо!)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 74 просмотра
2

ответа
C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- 20 дек.
- 52 просмотра
1

ответ
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 114 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 186 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 217 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 197 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 224 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 246 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Элемента нет ни в исходнике, и даже в отрендеренной версии нет.
А вы зайдите на сайт и посмотрите исходники

Answer 1 · 2021-03-30 16:33:46

Вообще, парсинг бывает не всегда так прост как кажется. Сайты часто пытаются различными способами даже минимальными, защищаться от простых парсеров, при этом есть ещё и различные разновидности защит.

А вообще, если ты хочешь посмотреть что же получаем из пост запрос, просто делай запись в файл, так будет проще понять где ошибка и тд. К примеру

import requests

getpost = requests.get('https://www.parimatch.ru/')
with open('log.html', 'w', encoding='utf-8') as f:
	f.write(getpost.text)

Далее сможем открыть эту страничку, и посмотреть что нам загрузило.

В основном как мы видим, есть лишь пустая старничка с заставкой. Значит инфа вся подгружается скриптом.

Ещё раз повторюсь, что не всё так просто, но за то весело устроено. :D

Я вот пока посмотрел, матчи сначала подружаются get запросом по адресу https://www.parimatch.ru/api/top-matches в формате:

spoiler

"abTestLabel":null,"topEvents":[{"id":"F","eventList":["1|6154167","1|6154172","1|6154171","1|6154169","1|6153670","1|6154164","1|6154166","1|6154165","1|6154170","1|6154168"]},{"id":"CS","eventList":["1|6193860","1|6173617","1|6193859","1|6161642","2|6192368","1|6193855","1|6193858","2|6191488","2|6192369","2|6191486"]},{"id":"H","eventList":["1|6185855","1|6185856","1|6174639","1|6174637","1|6174635","1|6174636","1|6190210","1|6174680","1|6174948","1|6179742"]},{"id":"B","eventList":["1|6173785","1|6173786","1|6173784","1|6173976","1|6174103","1|6173789","1|6173929","1|6166406","1|6166663","2|6188578"]},{"id":"T","eventList":["1|6189125","1|6192182","1|6191996","1|6190277","1|6190232","1|6189853","1|6192338","1|6192328","2|6186610","1|6191995"]},{"id":"TT","eventList":["2|6193585","2|6192227","2|6193586","2|6193234","2|6193462","2|6193912","2|6192904","1|6193575","1|6193624","1|6193623"]},{"id":"VB","eventList":["2|6187527","1|6187528","1|6191657","1|6187530","1|6186281","1|6177549","1|6186390","1|6186283","1|6186388","1|6186284"]}],"source":"TopMatch"}

С которого по этим данным отправляется запрос в БД на получение данных по адресу
https://www.parimatch.ru/content/strapi/system/graphql?

query: "query getData($id: [String]) {events(where: {id: $id}) { slug, id, sportCode, categoryId, tournamentId }}" В котором в параметрах даты передаются ID матчей что получены с первого запроса "variables":{"id":["6173617","6154171","6154169".

Надеюсь помог. :g

Answer 2 · 2021-03-30 15:49:06

Это похоже на сгенерированный класс
Попробуй взять родительский с нормальным названием и через него обратиться к дочернему классу элемента

Не могу спарсить элементы страницы с непонятными классами почему?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт