Как достать ссылки на страницы при парсинге?

Question

Alenwar @Alenwar

От глупыша до мастера

Как достать ссылки на страницы при парсинге?

Добрый день. При парсинге сайта https://www.olx.pl/elektronika/komputery/laptopy/ вылезает ошбика, что нет ссылки на атрибуты, NoneType

def get_url_card():
    for page_number in range(1, 3):
        sleep(2)
        url_page = f'{base_url}?page={page_number}'
        response = requests.get(url_page, headers=headers)
        page_soup = BeautifulSoup(response, "lxml")
        data_page = page_soup.find_all("div", class_="css-1sw7q4x")

        for card in data_page:
            url_card = "https://www.olx.pl" + card.find("a", class_="css-rc5s2u").a.get("href")
            yield url_card

Ответ с сайта всегда 200
Вот ссылка в коде сайта:

<a class="css-rc5s2u" href="/d/oferta/laptop-dell-latitude-e7470-i5-6300u-256sd-8gb-fhd-CID99-IDKLqHP.html">

В чем ошибка и как её решить?

Вопрос задан более года назад
137 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 17 часов назад
- 92 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 23 часа назад
- 137 просмотров
3

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 206 просмотров
1

ответ
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 139 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 110 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 246 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 137 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 139 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2024-02-27 18:24:56

Вот ссылка в коде сайта:

Как проверял, что она в коде сайта? Небось через браузер?

Правило первое: при ошибке записывай в файл то, что тебе прислал сервер, для последущего анализа. Может, сервер понял, что твой бот - это бот, и там "уходи, противный" вместо ожидаемой тобой страницы. А может, там динамический сайт, с контентом, подгружаемым через JS.

Answer 2 · 2024-02-28 00:32:16

fergoru @fergoru

.a.get("href")

Что собственно делает '.а' перед вызовом метода '.get'?

Ответ написан более года назад

Комментировать

Как достать ссылки на страницы при парсинге?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт