В чем ошибка при парсинге на python?

Question

Demon365 @Demon365

В чем ошибка при парсинге на python?

При парсинге объявлений выходит ошибка о ненайденном атрибуте find.

spoiler

import requests
import pandas as pd
from bs4 import BeautifulSoup
from time import sleep

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0"}

def get_url():
    for i in range(0, 1):
        sleep(5)
        url = f"https://habarovsk.cian.ru/cat.php?deal_type=sale&engine_version=2&from_developer=1&object_type%5B0%5D=2&offer_type=flat&only_flat=1&p={i}&region=5039&year%5B0%5D=2025&year%5B1%5D=2026&year%5B2%5D=2027&year%5B3%5D=2028&yeargte=2029"

        response = requests.get(url, headers=headers)

        soup = BeautifulSoup(response.text, "lxml")  # html.parser

        data = soup.find_all("div", class_="_93444fe79c--container--kZeLu _93444fe79c--link--DqDOy")

        for i in data:
            card_url = i.find("a").get("href")
            yield card_url


for card_url in get_url():
    response = requests.get(card_url, headers=headers)
    soup = BeautifulSoup(response.text, "lxml")
    data = soup.find("div", class_="a10a3f92e9--page--OYngf")
    name = data.find('h1').text
    print(name)

сама ошибка

spoiler

C:\Users\Денис\PycharmProjects\PythonProject3\.venv\Scripts\python.exe C:\Users\Денис\PycharmProjects\PythonProject3\parser.py 
Продается 3-комн. квартира, 74,6 м²
Traceback (most recent call last):
  File "C:\Users\Денис\PycharmProjects\PythonProject3\parser.py", line 28, in <module>
    name = data.find('h1').text
           ^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'find'

Process finished with exit code 1

Что интересно он например сейчас отпарсил один заголовок одного объявления, а иногда может больше, а иногда сразу выдает ошибку.
По коду он сначала находит все ссылки на странице, а потом идет по ссылкам и тянет данные из каждого объявления.

Если проверить ссылки, то он может также запнуться тоже где угодно

spoiler

C:\Users\Денис\PycharmProjects\PythonProject3\.venv\Scripts\python.exe C:\Users\Денис\PycharmProjects\PythonProject3\parser.py 
https://habarovsk.cian.ru/sale/flat/301393558/
https://habarovsk.cian.ru/sale/flat/307252257/
https://habarovsk.cian.ru/sale/flat/302210025/
https://habarovsk.cian.ru/sale/flat/306976675/
https://habarovsk.cian.ru/sale/flat/309973282/
https://habarovsk.cian.ru/sale/flat/314584143/
https://habarovsk.cian.ru/sale/flat/310806759/
https://habarovsk.cian.ru/sale/flat/314005085/
https://habarovsk.cian.ru/sale/flat/313554189/
https://habarovsk.cian.ru/sale/flat/306921407/
https://habarovsk.cian.ru/sale/flat/309962786/
https://habarovsk.cian.ru/sale/flat/296300456/
https://habarovsk.cian.ru/sale/flat/314080012/
Traceback (most recent call last):
  File "C:\Users\Денис\PycharmProjects\PythonProject3\parser.py", line 29, in <module>
    name = data.find('h1').text
           ^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'find'

Process finished with exit code 1

Хотя все заголовки по всем проверенным ссылкам в коде есть

Вопрос задан 11 мар.
299 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Demon365 @Demon365 Автор вопроса

Я сделал по другому, пасил через ссылки

spoiler
import requests
import pandas as pd
from bs4 import BeautifulSoup
from time import sleep

# Ссылки что нужно отработать ложить в файл url.txt
with open('url.txt') as f:
li = [line.strip() for line in f]

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0"}
sleep(3)

for url in li:
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, "lxml") # html.parser
data = soup.find("div", class_="a10a3f92e9--page--OYngf")
name = data.find("h1").text
zhk = data.find("a", class_="a10a3f92e9--link--A5SdC").text
address = data.find("div", class_="a10a3f92e9--address-line--GRDTb").text
print(name+'\n'+zhk+'\n'+address+'\n\n')

Оставил пять ссылок, запустил и он отпарсил все удачно, перезапустил еще два раз и удачно, на четвертый раз отпарсил только первую ссылку и выдал ошибку, на пятый раз вообще не отпарсил, на шестой три

spoiler
Продается 2-комн. квартира, 56,3 м²
ЖК «Борисенко 48»
Приморский край, Владивосток, р-н Первомайский, мкр. Борисенко, Борисенко 48 жилой комплексНа карте

Продается 1-комн. квартира, 33,26 м²
ЖК «Снежный парк»
Приморский край, Владивосток, р-н Первореченский, мкр. Снеговая падь, Снежный парк жилой комплекс, 1На карте

Продается 2-комн. квартира, 61,2 м²
ЖК «Босфорский парк»
Приморский край, Владивосток, р-н Первомайский, мкр. Патрокл, Босфорский Парк жилой комплекс, 4На карте

Traceback (most recent call last):
File "/data/user/0/ru.iiec.pydroid3/files/accomp_files/iiec_run/iiec_run.py", line 31, in
start(fakepyfile,mainpyfile)
File "/data/user/0/ru.iiec.pydroid3/files/accomp_files/iiec_run/iiec_run.py", line 30, in start
exec(open(mainpyfile).read(), __main__.__dict__)
File "", line 19, in
AttributeError: 'NoneType' object has no attribute 'find'

[Program finished]

Что интересно если по такому методу парсить главную страницу, то там отрабатывает, а когда путем открытия каждой ссылки, то рандомном отрабатывает

Написано 11 мар.
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Как парсить без бана?

Написано 11 мар.
Модератор @TosterModerator

Код в вопросе (и код ошибки тоже) надо оформить по правилам.

Написано 12 мар.

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как правильно подключить prometheus к flask + gunicorn?
- 1 подписчик
- час назад
- 33 просмотра
0

ответов
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 16 часов назад
- 100 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 194 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 187 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 528 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 537 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Код в вопросе (и код ошибки тоже) надо оформить по правилам.

Answer 1 · 2025-03-11 16:18:29

Что интересно он например сейчас отпарсил один заголовок одного объявления, а иногда может больше, а иногда сразу выдает ошибку.

В таких случаях в обработчике ошибок надо логировать контент, который отдал сайт. Очень вероятно, что там нет тега h1, а есть только текст "Обнаружен парсинг, доступ заблокирован" или что-то подобное.

Answer 2 · 2025-03-11 19:49:39

Попробуйте проверять data после этой строки

data = soup.find("div", class_="a10a3f92e9--page--OYngf")

Скорее всего, элемент с таким class-ом не всегда есть на странице(меняется class)

В чем ошибка при парсинге на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт