Почему генератор yield начинает работу с последней страницы сайта?

Question

JohnyExile @JohnyExile

Python

Почему генератор yield начинает работу с последней страницы сайта?

Генератор yeld начинает с 8 страницы. До этого перебором через список [] все работало

import requests
from bs4 import BeautifulSoup
from time import sleep


headers = {'User-Agent':
           'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)'}

def get_url():    
    for count in range(1, 8):

        url = f'https://scrapingclub.com/exercise/list_basic/?page={count}'

        response = requests.get(url, headers=headers) 
                                                                                        
        soup = BeautifulSoup(response.text, 'lxml') 

        data = soup.find_all('div', class_= 'col-lg-4 col-md-6 mb-4') 

    for i in data:      

        card_url = 'https://scrapingclub.com' + i.find('a').get('href') 
        yield card_url  

for card_url in get_url():         

    response = requests.get(card_url, headers=headers)   
    sleep(3)
    soup = BeautifulSoup(response.text, 'lxml')
    data = soup.find('div', class_= 'card mt-4 my-4')  

    name = data.find('h3', class_='card-title').text  
    price = data.find('h4').text       
    text = data.find('p', class_='card-text').text 
    url_img = 'https://scrapingclub.com' + data.find('img', class_='card-img-top img-fluid').get('src') 
    print(name + '\n' + price + '\n' + text + '\n' + url_img + '\n\n')

Вопрос задан более трёх лет назад
85 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 142 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 106 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 82 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 233 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 122 просмотра
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 132 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 132 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 249 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 416 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 281 просмотр
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2022-10-30 16:16:24

data = soup.find_all('div', class_= 'col-lg-4 col-md-6 mb-4')

Ты перезаписываешь data на каждой итерации цикла, конечно там остаётся только последнее записанное значение. Совмести оба цикла внутри get_url() в один, иначе нет особого смысла в yield.

Answer 2 · 2022-10-30 20:51:47

Привет.
Ты упустил отступ для кода

for i in data:      
        card_url = 'https://scrapingclub.com' + i.find('a').get('href') 
        yield card_url

Сейчас происходит вот что. Цикл for count in range(1, 8) перебирает страницы, заканчивая на 8-й.
После этого начинает работать цикл for i in data
Т.е. второй цикл сейчас последовательно выполняется за первым, а тебе нужен вложенный цикл.

Почему генератор yield начинает работу с последней страницы сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт