Как корректно использовать селектор при парсинге сайта?

Question

arget1k3 @arget1k3

Beautiful Soup

Как корректно использовать селектор при парсинге сайта?

Только познакомился с парсингом. Просмотрел видеоурок и реализовал такой код:

import requests
from bs4 import BeautifulSoup as BS

r = requests.get('https://www.igromania.ru/games/')
html = BS(r.content, 'html.parser')


for el in html.select('.CommonBasePage_page__mlC3i > .CommonBasePage_page_content__o0c0C'): #.d-flex app main-chat > .main dialog custom-scrollbar > .chat-request flex-row-reverse gap-10 > .chat-infor align-flex-start > 
    title = el.select('.GameCard_content__5G7vA > a')
    for i in title:
        print(i.text)

Теперь мне надо реализовать что-то похожее для другого сайта ссылка на сайт

Вот что я написал:

import requests
from bs4 import BeautifulSoup as BS


r = requests.get('https://talkai.info/ru/chat/')
html = BS(r.content, 'html.parser')


for el in html.select('.sectionChat > .sectionChatDialogue'): #.d-flex app main-chat > .main dialog custom-scrollbar > .chat-request flex-row-reverse gap-10 > .chat-infor align-flex-start > 
    title = el.select('.messageContain copy-text')
    for i in title:
        print(i.text)

Проблема в том, что не заходит программа в цикл и как я понял проблема с селектором.
Может кто подсказать как правильно использовать селекторы?

Вот фото кода сайта

Вопрос задан более двух лет назад
288 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

3 комментария

arget1k3 @arget1k3 Автор вопроса

Посмотрел что приходит в переменную, среди генераторов и объектов под "tagStack:
[!DOCTYPE html", нашел вот такой текст:

'\n\n\n\n\n\n(мой ip) 29.09.2023 08:16:21\n\n\n\n\n\n\nSorry, your request has been denied.\n\n\n\n\n'

Это означает что этот сайт невозможно спарсить? Или из-за чего он может отклонять мой запрос?

Написано более двух лет назад
Vindicar @Vindicar

arget1k3, в ответе это есть.
Владелец сайта может быть заинтересован в том, чтобы отклонять запросы от ботов - в конце концов, боты нагрузку создают, а рекламу не читают.
Поэтому сайт может отклонить твой запрос, если он недостаточно похож на запрос от обычного браузера - нет правильных заголовков, не передаются cookies, или ещё какая хитрая эвристика.

Вообще следует иметь ввиду, что удалённый сайт вообще не обязан отдавать тот контент, который ты от него ожидаешь. Он может начать банить ботов, он может начать блокировать запросы по GeoIP, его могут взломать и дефейснуть, у него может поменяться структура страницы, т.е. вёрстка... так что код парсера придётся обновлять премя от времени.

Написано более двух лет назад
arget1k3 @arget1k3 Автор вопроса

Vindicar, спасибо)

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг. 2025
- 112 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- более года назад
- 276 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- более года назад
- 235 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 267 просмотров
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 301 просмотр
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 204 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 147 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 90 просмотров
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 90 просмотров
2

ответа
Показать ещё Загружается…

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4

Answer 1 · 2023-09-28 20:04:09

Ну если не ограничивать себя видеоуроками, а узнать, как именно работает Web, то можно догадаться до первого шага по отладке такой ситуации:
Сохрани ответ сайта в файл и посмотри, что тебе пришло на самом деле.

Во-первых, сайт может отдавать разные страницы боту и браузеру, особенно если запросы от них не идентичны. Более того, владелец сайта нередко заинтересован в том, чтобы обнаруживать ботов и слать им не запрашиваемую страницу, а что-то другое - чтоб неповадно парсить было.

Во-вторых, современные сайты - это не статические странички аля 1991й год. Они зачастую битком набиты JS-скриптами, которые исполняются в среде браузера. Поэтому нередко сайт отдаёт страницу-заглушку, на которую средствами скрипта уже подгружается контент. BeautifulSoup не исполняет JS, это не его задача, а потому ты увидишь только заглушку, и больше ничего.

Answer 2 · 2023-09-28 20:01:05

Вместо .messageContain copy-text напиши .messageContain .copy-text (точка у copy-text).

Если есть несколько классов, то все они должны писаться через точку - точка означает css класс. Без точки - html тэг

Answer 3 · 2023-09-28 20:05:50

1. el.select('.messageContain.copy-text')
2. А авторизация и некий антиспам продуманы уже я надеюсь? requests понятия не имеет что за диалог у вас идет в браузере. Не факт что вообще вернется страница в таком виде в каком должна быть, вдруг диалоги XHR подгружаются

Плюс, важная вещь - научиться смотреть что пришло в ответ на запрос. То что в браузере - пусть будет в браузере, это не ваша страница, ваша - содержимое r.content. Берем это содержимое, льем в файл и изучаем

Как корректно использовать селектор при парсинге сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт