Парсинг сайта. В какую сторону копать?

Question

Артем @Malodar

Начинающий питонист

Парсинг сайта. В какую сторону копать?

Приветствую. Изучаю web-scraping совсем недавно и не могу победить одну проблемку: есть сайт www.nowgoal.net . Я хочу получить список всех матчей с главной страницы. Каждый матч имеет свой id (на скрине видно "tr1_id")

,
но я никак не могу извлечь его. Использую BeautifulSoup. Понимаю, что нужно как-то работать с таблицей "table_live", но как мне до нее "добраться"? Простой метод, типа:

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

def main():
    html = urlopen("http://www.nowgoal.net/")
    soup = BeautifulSoup(html, 'lxml')
    res = soup.find('table', id=re.compile("table_live"))

    print(res)

if __name__ == "__main__":
    main()

не работает (у меня). Направьте меня в нужную сторону, плиз ))

Вопрос задан более трёх лет назад
831 просмотр

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

2 комментария

Дмитрий @EvilsInterrupt

Прошу пояснить, а как вы поняли про запросы несущие контент? Если смотреть в консоль хрома, там же ад из всего. Как "найти иголку в стоге сена"?

Написано более трёх лет назад
nirvimel @nirvimel

Дмитрий: Не такой уж и ад. Часто приходится иметь дело в сайтами намного адовее.

Метод1: Если фильтром отключить графику и стили, то среди оставшихся js-ов сразу бросаются в глаза те, которые с GET параметром. Параметр похож на отметку времени, следовательно адрес сгенерирован динамически. Зачем нужен динамический адрес статическому скрипту? Щелкаю по Response (FF developer tools) вижу ~~JSON~~ JSONP, т.е. данные, завернутые в обычный JS. Бинго!

Метод2: На самом деле с первого захода сразу бросаются в глаза запросы, которыми непрерывно бомбардируется сервер уже после окончания загрузки страницы. Сразу предпологаю, что это апдейты (но чтобы так часто - нонсенс!), заглядываю в них - так и есть!

Что касается других случаев, когда реально ад: Первым делом нужно пробовать фильтр (XHR), если не работает (как в этом случае, где данные в js), то последовательно исключаем статику, графику, стили. Далее можно попробовать сортировку по размеру ответа: AJAX-ы часто идут в самых мелких или самых крупных ответах; по времени: AJAX-ы часто идут в конце после загрузки всего остального; и (главный хак) по задержке запроса: динамика чаще всего отдается намного медленнее статики.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

8 комментариев

Артем @Malodar Автор вопроса

попробую.
но неужто суп настолько плох? вроде ж очень популярная библиотека...

Написано более трёх лет назад
Roman K @deliro

Артем: Очень плох. Если очень интересно, могу объяснить, почему.

Написано более трёх лет назад
Артем @Malodar Автор вопроса

Roman Kitaev: конечно интересно! мне как новичку полезно будет узнать... хотя бы вкратце.

Написано более трёх лет назад
Roman K @deliro

Артем:
1) У bs нет поиска по xpath.
2) xpath можно заменить цепочкой селекторов, но у bs нет поиска по цепочке селекторов
3) Метод .find возвращает элемент или None. Это самая глупая и неудобная концепция, под которую приходится строить свои костыли или кулхацкерские решения. Логично было бы кидать ошибку или отдавать элемент-пустышку вместо None (чтобы у него были методы .find и .find_all). Вкупе с пунктом №2 код превращается в неведомую лапшу из проверок на то, что element is not None.

Написано более трёх лет назад
Артем @Malodar Автор вопроса

Roman Kitaev: Благодарю! Всё чётко и по полочкам) Я весь день сегодня потратил на борьбу с этим None. В итоге сдался и написал сюда) Завтра буду курить scrapy.

Написано более трёх лет назад
Roman Mindlin @kgbplus

В книжке Learning scrapy во вступлении очень красочно описаны мучения человека, пользующегося чистым bs4 )))

Написано более трёх лет назад
Дмитрий @LazyTalent

' но у bs нет поиска по цепочке селекторов', а как же select()? bs_obj.select('div.class1.class2')

Написано более трёх лет назад
Roman K @deliro

Дмитрий: И где тут цепочка?

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 181 просмотр
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 229 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 151 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 125 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Скрипт на этом говносайте постоянно шлет довольно тяжелые запросы с частотой несколько штук в секунду - сильно грузит браузер (и память быстро подтекает). Ужасный баг! Куда только смотрят разрабы?!
nirvimel: да, я тоже заметил, что браузер подтормаживает, когда этот сайт открыт.

Answer 1 · 2017-02-20 01:15:10

Это 100% AJAX контент. Не пытайтесь парсить HTML - это пустой шаблон.
Сам контент несут запросы:
www.nowgoal.net/data/panlu_en.js?1487540944000
www.nowgoal.net/data/bf_en2.js?1487540944000 - видимо, главный список матчей.
Формат: Javascript/JSONP (то есть НЕ валидный JSON).
А этот GET-параметр - метка времени в формате Javascript (миллисекунды с момента начала Эпохи).

P.S.: Я обычно с уважением отношусь к веб-разработчикам (хорошо_ли/плохо_ли вышло, но люди делали, старались), но, глядя на этот кусок... сайта, просто не могу удержаться: ТАКОГО ГОВНОКОДА Я НЕ ВИДЕЛ ДАВНО!

Answer 2 · 2017-02-20 00:28:23

Roman K @deliro

Направьте меня в нужную сторону, плиз ))

Удали прямо сейчас beautifulsoup и возьми scrapy.

Ответ написан более трёх лет назад

8 комментариев

Answer 3 · 2017-02-20 10:27:58

Полностью согласен с nirvimel - дикий говнокод. На твоем месте я бы не стал заморачиваться и вникать во все эти запросы - уйдет очень много времени, а тупо бы взял selenium или бы нашел другой сайт, который выдает те же самые данные.

Парсинг сайта. В какую сторону копать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт