Почему парсер то работает то нет?

Question

CteplerMarinovich @CteplerMarinovich

Crawling

Почему парсер то работает то нет?

Я написал код, который возвращает описание фильма с кинопоиск, по ссылке формата "kinopoisk.ru/"+id фильма
И он то работает то нет... Первый запуск вернул описание, второй выдал ошибку, мол у обьекта title нет атрибута text, через 40 минут я снова его запустил, и он снова вернул мне описание фильма... Как это работает???

from bs4 import BeautifulSoup
import requests


source = requests.get("https://www.kinopoisk.ru/film/361/")

soup = BeautifulSoup(source.text, "lxml")

title = soup.find("div", class_="styles_filmSynopsis__Cu2Oz")
print(title.text)

Вопрос задан более двух лет назад
205 просмотров

8 комментариев

Подписаться 1 Простой 8 комментариев

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Crawling

Средний
Почему браузеры и curl дают разные результаты?
- 4 подписчика
- более двух лет назад
- 1108 просмотров
2

ответа
Поисковые системы

+1 ещё

Сложный
Как своровать шины? (Проверить, что на странице есть fetch().json())?
- 1 подписчик
- более двух лет назад
- 170 просмотров
1

ответ
Python

+2 ещё

Простой
Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?
- 1 подписчик
- более двух лет назад
- 566 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как убрать все после слова регулярным выражением?
- 1 подписчик
- более двух лет назад
- 457 просмотров
1

ответ
Crawling

+1 ещё

Простой
Как следить за последними новостями в мире хайтек и IT?
- 1 подписчик
- более двух лет назад
- 227 просмотров
1

ответ
Поисковая оптимизация

+4 ещё

Средний
Софт для мониторинга форумов?
- 2 подписчика
- более двух лет назад
- 176 просмотров
1

ответ
Google Cloud Platform

+1 ещё

Простой
В каких случаях статус кода HTTP 200 может быть неиндексируемым?
- 1 подписчик
- более двух лет назад
- 41 просмотр
1

ответ
Веб-разработка

+1 ещё

Простой
Чем можно скачать страницу сайта кроме wget?
- 1 подписчик
- более двух лет назад
- 261 просмотр
2

ответа
Crawling

Простой
Есть у кого-то РУ аналог ProxyCrawl с JS рендером?
- 1 подписчик
- более трёх лет назад
- 47 просмотров
0

ответов
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Борис Алексеев, сервер возвращает 200, в этом и проблема
Возможно данные грузятся через JS и не успевают монтироваться в HTML, от сюда данные то есть, то их нет.
Дмитрий Кузнецов, можно конкретнее? Что мне гуглить чтобы найти решение проблемы?
CteplerMarinovich, Для начала вы можете записать в файл то, что находится в source, и сравнить между собой успешный и неуспешный запуск
CteplerMarinovich, Ну, судя по наличию "SmartCaptcha" в этом тексте, вас распознают как робота.
Увеличиваем таймауты, маскируемся всячески.
MaxKozlov, да, помогло, как сделать этот комментарий ответом? ?
CteplerMarinovich, Никак. Сейчас оформлю отдельно
Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента.

Answer 1 · 2023-02-14 19:18:26

Для начала вы можете записать в файл то, что находится в source, и сравнить между собой успешный и неуспешный запуск
...
Судя по наличию в неуспешном ответе "SmartCaptcha", вас распознают как робота.

Увеличиваем таймауты, маскируемся всячески.

Answer 2 · 2023-02-14 16:59:52

Делайте проверку в цикле.
Попробуйте добавить timeout

source = requests.get("https://www.kinopoisk.ru/film/361/",  timeout=3)

https://docs.python-requests.org/en/latest/user/ad...

Почему парсер то работает то нет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт