Beautiful Soup, как эффективнее ловить теги?

Question

Залим Лампежев @sabolch

Web devoloper

Beautiful Soup, как эффективнее ловить теги?

Есть сайт руспрофиль.ру, делаю парсинг ФИО.
url = 'https://www.rusprofile.ru/codes/561010/'

fio = soup.select('.company-item > .company-item-info > dl > dd')

Дело в том, что не всегда количество тегов в каждом блоке равны. Где-то на один больше, где-то меньше.
В итоге, первая страница парсится хорошо, но среди результатов пару ошибок есть из-за кол-ва тегов.
Затем, программа открывает следующую страницу и вот уже там ошибок гораздо больше. Вместо нужных тегов вылезают совсем другие и в итоге каша.

Вывод для первой страницы делаю так:

for i in range(0, len, 5):
    print(fio[i].text)
    names.append(fio[i].text)
    for j in range(5, len, 6):
        print(fio[j].text)
        names.append(fio[j].text)

Для первой страницы подходит на 98%, а вот когда страница меняется, то уже 2% попаданий)))

Есть ли более эффективный метод ловли нужных тегов?

Пример верстки сайта

<div class="company-item">
    <div class="company-item__title">
        <a href="/id/10612303">                                ООО "Восток"            </a>        
    </div>
    <div class="company-item-info">
        <dl>
            <dt>Генеральный директор</dt>
            <dd>Титаев Александр Витальевич</dd>
        </dl>
    </div>
    <address class="company-item__text">
        603005, Нижегородская область, город Нижний Новгород, улица Пискунова, дом 14/5, помещение 8                                            
    </address>
    <div class="company-item-info">
        <dl>
            <dt>ИНН</dt>
            <dd>5260430967</dd>
        </dl>
        <dl>
            <dt>ОГРН</dt>
            <dd>1165275042349</dd>
        </dl>
        <dl>
            <dt>Дата регистрации</dt>
            <dd>1 сентября 2016 г.</dd>
        </dl>
        <dl>
            <dt>Уставный капитал</dt>
            <dd>10 000 руб.</dd>
        </dl>
    </div>
    <div class="company-item-info">
        <dl>
            <dt>Основной вид деятельности</dt>
            <dd>56.10.1 Деятельность ресторанов и кафе с полным ресторанным обслуживанием, кафетериев, ресторанов быстрого питания и самообслуживания</dd>
        </dl>
    </div>
</div>

Резюмирую: нужно вытаскивать ФИО, количество тегов не всегда равны, иногда добавляются или убавляются какие-то теги. Поэтому, если обращаться по индексу, как в моем примере, то будет провал...

Вопрос задан более трёх лет назад
214 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 194 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 475 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 274 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 486 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 208 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 329 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 657 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 343 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-03-23 09:17:04

Залим Лампежев @sabolch Автор вопроса

Web devoloper

Решил проблему другим выводом.

fio = soup.select('.company-item-info')
len = len(soup.select('.company-item-info'))

for i in range(0, len, 3):
    print(fio[i].dd.text)

Ответ написан более трёх лет назад

Комментировать

Beautiful Soup, как эффективнее ловить теги?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт