Что не так с моим парсером на python?

Question

Li Uzumaki @Termot

Что не так с моим парсером на python?

Пытался спарсить детали игры (хронология, рейтинги), которые появляются на сайте, но никак не выдает элементы, которые я пытался достать.
Что я сделал не так и в чем моя оишбка?

Вот код:

#parse
import requests
from bs4 import BeautifulSoup

url = 'https://osu.ppy.sh/users/16873295'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36 OPR/68.0.3618.206', 'accept': '*/*'}

def get_html(url, params=None):
    r = requests.get(url, headers=headers, params=params)
    return r
    

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='play-detail')
    
    print(items)


def parse():
    html = get_html(url)
    if html.status_code == 200:
        get_content(html.text)
    else:
        print('Error')


parse()

#python 3.7.0

Вопрос задан более трёх лет назад
185 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как сделать символьные вычислениями в питоне для поиска стационарных точек системы диффуров?
- 1 подписчик
- вчера
- 128 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- вчера
- 98 просмотров
3

ответа
Python

+2 ещё

Простой
Telegram бот с модулем PortalsAPI, при запуске curl_cffi выдает ошибку curl: (77) что делать?
- 1 подписчик
- 15 июл.
- 169 просмотров
1

ответ
Python

Средний
Маппинг криптовалютных пар на криптобиржах?
- 1 подписчик
- 14 июл.
- 115 просмотров
1

ответ
Python

+1 ещё

Средний
Почему при QR-логине в Telethon logout закрывает обе сессии?
- 1 подписчик
- 14 июл.
- 52 просмотра
0

ответов
Python

+1 ещё

Простой
Как тренировать Yolo, размер датасета, итоговый loss?
- 2 подписчика
- 13 июл.
- 953 просмотра
2

ответа
Python

Простой
Как сделать скачивание файла с github релиза на python?
- 1 подписчик
- 12 июл.
- 99 просмотров
0

ответов
Python

+1 ещё

Простой
Panda3D. Не могу найти причину ошибки glxGraphicsPipe (1 aux display modules not yet loaded.) в чем она?
- 1 подписчик
- 11 июл.
- 45 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Datacol программа некоректно работает с прокси, вопрос почему?
- 1 подписчик
- 06 июл.
- 76 просмотров
0

ответов
Python

+1 ещё

Средний
Как генерировать качественные изображения в stable diffusion используя python?
- 2 подписчика
- 05 июл.
- 416 просмотров
0

ответов
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Python разработчик

Bell Integrator • Москва

Python разработчик

Bell Integrator • Москва

Answer 1 · 2020-08-30 17:32:54

Я уже здесь неоднократно советовал, возьмите себе за правило, перед любым парсингом, загрузите страницу с помощью скрипта себе на диск. Далее откройте страницу в текстовом редакторе, и поищите - есть ли нужный элемент с нужным классом(или id) в html. Если есть, значит можно работать requests'том. В противном случае - Selenium (есть еще XHR...).
Вот сам код:

import requests

headers = {'user-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0',
			'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

url = 'ссылка'
filename = 'index.html'

response = requests.get(url,headers=headers)
if response.status_code == 200:
    with open(filename,'w') as file:
        file.write(response.text)
else:
	print(response)

Вписываете ссылку и запускаете скрипт. Если все ОК - на диске появится файл index.html(на этом файле можно дальше тренироваться с парсингом). В противном случае - в консоль вылетит HTTP код ошибки. Если ошибка, подставляете заголовки, cookies ... и заново.

Конкретно в данном случае, элемента div с классом play-detail в html нет. Он появиться после обработки js скриптов js движком. Но выход есть. Все данные есть. Но они в формате json в теге script с id (если не ошибаюсь) - json-extras.

Answer 2 · 2020-08-30 18:38:45

В блоке <script id="json-extras" type="application/json"> вся нужная тебе информацию представлена в формате JSON:

json elem

{
   "scoresBest":[
      {
         "id":3211927044,
         "best_id":3211927044,
         "user_id":16873295,
         "accuracy":0.8836257309941521,
         "mods":[
            
         ],
         "score":1981044,
         "max_combo":377,
         "perfect":false,
         "statistics":{
            "count_50":1,
            "count_100":41,
            "count_300":238,
            "count_geki":29,
            "count_katu":21,
            "count_miss":5
         },
         "pp":69.7365,
         "rank":"B",
         "created_at":"2020-08-25T08:26:10+00:00",
         "mode":"osu",
         "mode_int":0,
         "replay":false,
         "beatmap":{
            "difficulty_rating":4.84,
            "id":1385399,
            "mode":"osu",
            "version":"Fanteer's Insane",
            "accuracy":7.5,
            "ar":9,
            "beatmapset_id":653534,
            "bpm":110,
            "convert":false,
            "count_circles":123,
            "count_sliders":162,
            "count_spinners":0,
            "cs":3.5,
            "deleted_at":null,
            "drain":6,
            "hit_length":95,
            "is_scoreable":true,
            "last_updated":"2018-01-08T11:05:04+00:00",
            "mode_int":0,
            "passcount":772659,
            "playcount":3155157,
            "ranked":1,
            "status":"ranked",
            "total_length":96,
            "url":"https:\/\/osu.ppy.sh\/beatmaps\/1385399"
         },
   ]
}

Можешь хоть регуляркой вытягивать этот JSON, преобразовывать его в словарь Python и доставать нужные тебе данные.
Так получается, потому что все элементы на странице рендерятся JS'ом, а requests не умеет интерпретировать JS-код, по-этому исходный код отличается от конечного, который отображается в твоём браузере. Проверить то, какой изначально страница представляется до отработки JS можешь так, как подсказал Gennady S

Что не так с моим парсером на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт