Данные отсутствуют пишет не правильные селекторы?

Question

Taulan Khatuaev @i229194964

Веб разработчик

Данные отсутствуют пишет не правильные селекторы?

Пищу парсер не могу вытащить не которые селекторы в cv файле пишет данные отсутствуют ? Не могу получить данные от 'Тип отделки': '',
'Количество корпусов': '',
'Видеонаблюдение': '',
'Этап строительства': '',
'Этажность': '',
'Срок сдачи': '',
'Меблировка': '',
'Балкон': ''

Код парсера

import requests
from bs4 import BeautifulSoup
import pandas as pd

def fetch_html(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        return response.content
    except requests.RequestException as e:
        print(f"Request error: {e}")
        return None

def parse_complex_details(item):
    details = {
        'Фотографии': [],
        'Застройщик': '',
        'Площадь': '',
        'Стоимость': '',
        'Тип отделки': '',
        'Количество корпусов': '',
        'Видеонаблюдение': '',
        'Этап строительства': '',
        'Этажность': '',
        'Срок сдачи': '',
        'Меблировка': '',
        'Балкон': ''
    }

    # Извлечение фотографий
    photos = item.select('.project-list-item__img-wrapper img')
    details['Фотографии'] = [photo['src'] for photo in photos] if photos else []

    # Извлечение информации о застройщике, площади и стоимости
    developer_info = item.select_one('.project-list-item__content_main .project-list-item__content_list > div:nth-child(2)')
    details['Застройщик'] = developer_info.get_text(strip=True) if developer_info else 'Информация о застройщике отсутствует'

    area_info = item.select_one('.project-list-item__content_main .project-list-item__content_list > div:nth-child(3)')
    details['Площадь'] = area_info.get_text(strip=True) if area_info else 'Информация о площади отсутствует'

    price_info = item.select_one('.project-list-item__content_bottom > div > span.d-block.text-h10')
    details['Стоимость'] = price_info.get_text(strip=True) if price_info else 'Информация о стоимости отсутствует'

    # Извлечение типа отделки из предоставленного селектора
    finish_type_info = item.select_one('.project-finish-type')
    details['Тип отделки'] = finish_type_info.get_text(strip=True) if finish_type_info else 'Информация о типе отделки отсутствует'

    # Обработка нового селектора для извлечения дополнительных деталей
    additional_details_content = item.select_one('#__nuxt > div > div.default-layout > div > main > div.project-detailed > div:nth-child(2) > div > div.project-characteristics-grid > div:nth-child(7) > div.project-characteristics-grid__item_content')
    if additional_details_content:
        characteristics = additional_details_content.select('.project-characteristics-grid__item_label')
        values = additional_details_content.select('.project-characteristics-grid__item_value')

        for characteristic, value in zip(characteristics, values):
            label = characteristic.get_text(strip=True)
            value_text = value.get_text(strip=True)
            if "Тип отделки" in label:
                details['Тип отделки'] = value_text
            elif "Количество корпусов" in label:
                details['Количество корпусов'] = value_text
            elif "Видеонаблюдение" in label:
                details['Видеонаблюдение'] = value_text
            elif "Этап строительства" in label:
                details['Этап строительства'] = value_text
            elif "Этажность" in label:
                details['Этажность'] = value_text
            elif "Срок сдачи" in label:
                details['Срок сдачи'] = value_text
            elif "Меблировка" in label:
                details['Меблировка'] = value_text
            elif "Балкон" in label:
                details['Балкон'] = value_text

    return details

def parse_complexes_list(url):
    html_content = fetch_html(url)
    if not html_content:
        return []

    soup = BeautifulSoup(html_content, 'html.parser')
    complexes = []

    complex_items = soup.select('.project-list a')
    for item in complex_items:
        name = item.select_one('.project-list-item__content > div')
        name_text = name.get_text(strip=True) if name else 'Название не найдено'

        details = parse_complex_details(item)
        
        complexes.append({
            'Название': name_text,
            **details,
        })
    
    return complexes

def main():
    urls = [
        "https://th.housebook.deals/ru/zhilye-kompleksy",
        "https://ae.housebook.deals/ru/zhilye-kompleksy",
        "https://th.housebook.deals/ru/zhilye-kompleksy/hennessy-residence-98ce6b"
    ]

    all_complexes = []
    for url in urls:
        complexes = parse_complexes_list(url)
        all_complexes += complexes
        print(f"Found {len(complexes)} complexes at {url}")

    df = pd.DataFrame(all_complexes)
    excel_path = 'complexes_data.xlsx'
    df.to_excel(excel_path, index=False)
    print(f"Data saved to {excel_path}")

if __name__ == "__main__":
    main()

сама страница
https://th.housebook.deals/ru/zhilye-kompleksy/hen...

Вопрос задан 15 мар.
66 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Почему код не работает?
- 1 подписчик
- 30 минут назад
- 55 просмотров
0

ответов
Python

+1 ещё

Средний
Как оптимизироват код во времени?
- 2 подписчика
- час назад
- 48 просмотров
0

ответов
Python

Простой
Как оптимизировать код на Python во времени?
- 1 подписчик
- 3 часа назад
- 134 просмотра
1

ответ
Python

+1 ещё

Простой
Как заставить Pip на windows 10 работать через прокси?
- 2 подписчика
- 7 часов назад
- 56 просмотров
1

ответ
Python

Простой
Не работает eel?
- 1 подписчик
- 11 часов назад
- 36 просмотров
0

ответов
Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- 14 часов назад
- 58 просмотров
1

ответ
Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 18 часов назад
- 101 просмотр
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 19 часов назад
- 38 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 2 подписчика
- 20 часов назад
- 135 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 22 часа назад
- 237 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Написать скрипт на Selenium (для автоматизации регистрации на сайте)

27 апр. 2024, в 13:38

30000 руб./за проект

Доработка проекта Django

27 апр. 2024, в 13:30

30000 руб./за проект

Нарисовать баннер в современном стиле

27 апр. 2024, в 13:22

600 руб./за проект

нам за тебя дебажить? что тебе мешает поставить в местах где "Данные отсутствуют" тот же breakpoint() и изучить что у тебя там в переменных и т.п?

Answer 1 · 2024-03-16 11:41:04

Может, у тебя и впрямь неправильные селекторы.
Может, сайт меняет названия классов время от времени, и твои селекторы устарели.
Может, сайт подгружает данные динамически, и BS получает на вход урезанный вариант страницы. BS не выполняет скрипты.
Может, сайт понимает, что твой бот - это бот, и отдаёт тебе "уходи, противный" вместо страницы.

Запиши скачанную страницу в файл, и посмотри, насколько она похожа на то, что ты ожидаешь получить.

Данные отсутствуют пишет не правильные селекторы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт