Парсинг на python. Как исправить работу пагинации?

Question

lexansk @lexansk

Парсинг на python. Как исправить работу пагинации?

Всем привет! Есть вот такая программка, которая парсит товары по ссылке:

import requests
import csv
from bs4 import BeautifulSoup as bs


headers = {'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0'}
MAIN_URL = 'https://www.yoox.com' # для формирования полной ссылки

base_url = 'https://www.yoox.com/ru/%D0%B4%D0%BB%D1%8F%20%D0%BC%D1%83%D0%B6%D1%87%D0%B8%D0%BD/%D0%BE%D0%B4%D0%B5%D0%B6%D0%B4%D0%B0/shoponline#/dept=clothingmen&gender=U&page=1&season=X'


def yoox_parse(base_url, headers):
    session = requests.Session()
    request = session.get(base_url, headers=headers)
    clothes = []
    urls = []
    urls.append(base_url)

    if request.status_code == 200:
        soup = bs(request.content, 'html.parser')
        try:
            pagination = soup.find_all('li', attrs={'class': 'text-light'})
            count = int(pagination[-1].text)
            for i in range(1,count):
                url = f'https://www.yoox.com/ru/%D0%B4%D0%BB%D1%8F%20%D0%BC%D1%83%D0%B6%D1%87%D0%B8%D0%BD/%D0%BE%D0%B4%D0%B5%D0%B6%D0%B4%D0%B0/shoponline#/dept=clothingmen&gender=U&page={i}&season=X'
                if url not in urls:
                    urls.append(url)


        except:
             pass

    for url in urls:
        request = session.get(url, headers=headers)
        soup = bs(request.content, 'html.parser')
        divs = soup.find_all('div', attrs={'class': 'col-8-24'})


        for div in divs:
            brand = div.find('div', attrs={'class': 'brand font-bold text-uppercase'})
            group = div.find('div', attrs={'class': 'microcategory font-sans'})
            old_price = div.find('span', attrs={'class': 'oldprice text-linethrough text-light'})
            new_price = div.find('span', attrs={'class': 'newprice font-bold'})
            price = div.find('span', attrs={'class': 'fullprice font-bold'})
            sizes = div.find_all('span', attrs={'class': 'aSize'})
            href = div.find('a', attrs={'class': 'itemlink'})
            art = div.find('div', attrs={'class': ''})






            if brand and group and new_price: # new_price выводит только товары со скидкой
                clothes.append({
                    'art': art,
                    'href': MAIN_URL + href.get('href'),
                    'sizes': [size.get_text() for size in sizes],
                    'brand': brand.get_text(),
                    'group': group.get_text(strip=True),
                    'old_price': old_price.get_text().replace(' ', '').replace('руб', '') if old_price else None,
                    'new_price': new_price.get_text().replace(' ', '').replace('руб', '') if new_price else None,
                    'price': price.get_text().replace(' ', '').replace('руб', '') if price else None,



                })
        print(len(clothes))
    else:
        print('ERROR or Done')

    return clothes

def files_writer(clothes):
    with open('parsed_yoox_man_clothes.csv', 'w', newline='') as file:
        a_pen = csv.writer(file)
        a_pen.writerow(('Артикул', 'Ссылка', 'Размер', 'Марка', 'Категория', 'Старая цена', 'Новая цена', 'Цена'))
        for clothe in clothes:
            a_pen.writerow((clothe['art'], clothe['href'], clothe['sizes'], clothe['brand'], clothe['group'], clothe['old_price'], clothe['new_price'], clothe['price']))




clothes = yoox_parse(base_url, headers)
files_writer(clothes)

Когда я начал разбираться с содержимым парсинга, понял, что программа собирает данные только с base_url, но в количестве раз равному количеству страниц на сайте.

Тогда я начал разбираться с кодом, ставя промежуточные выдачи результата и понял, что программа формирует верные ссылки на все страницы, но собирает все-равно только с первой.

Идеи закончились, осталось только просить помощи у коллективного разума.
Если будете запускать скрипт, то лучше заменить for i in range(1,count): на for i in range(1,5): чтобы долго не ждать результата.

Заранее спасибо. Я пока только учусь и учеба в практике мне кажется более интересной.

Вопрос задан более трёх лет назад
1920 просмотров

2 комментария

Подписаться 2 Средний 2 комментария

Решения вопроса 1

3 комментария

lexansk @lexansk Автор вопроса

Спасибо, Сергей! Я вчера переписал код с использованием селениума чтобы, но так очень долго парсится и надо паузы делать на каждой странице чтобы успевал прогружаться контент.

Как вам удалось найти такую ссылку? Так как нужны же еще обувь, аксессуары и женский раздел.

Кстати, не тестировали как ведет себя ваша программа при парсинге обуви с размерами "42 1/3" и подобным?

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

lexansk, Здравствуйте! Несколько часов вчера искал проблему. Посмотрел ваш код - вполне себе должен быть рабочим. Но что я только не делал, ничего не получалось. Уже и свой парсер набросал. Все было без результатно. Потом зашел в инструменты разработчика, чтобы, посмотреть какие запросы шлет браузер. И обратил внимание, что при переходе на следующую страницу адрес не такой, как в коде. А если бы сразу зашел в инструменты разработчика, и сравнил запросы скрипта и браузера, сэкономил бы несколько часов) Ну, буду знать на будущее.

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

lexansk, Только что попробовал обувь, работает отлично.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 10 часов назад
- 108 просмотров
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- вчера
- 154 просмотра
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 109 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 508 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 103 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 521 просмотр
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 544 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

А с какой ещё собирать, если вы указали range от 1?
Web Dentist, В цикле с первой по count страницу. А скрипт собирает count раз с 1 страницы.

Answer 1 · 2020-02-21 18:45:55

Не ту ссылку используете. Нужно эту - "www.yoox.com/RU/shoponline?dept=clothingmen&gender=U&page={x}&season=X&clientabt=SmsMultiChannel_ON%2CSrRecommendations_ON%2CNewDelivery_ON%2CRecentlyViewed_ON%2CmyooxNew_ON"

В коде ниже страницы парсятся по очереди и сразу результат заносится в файл. В файл записываются только результаты со скидками!
Вот рабочий код, может кому пригодится:

import requests
from bs4 import BeautifulSoup
from lxml import html
import csv

url = 'https://www.yoox.com/ru/%D0%B4%D0%BB%D1%8F%20%D0%BC%D1%83%D0%B6%D1%87%D0%B8%D0%BD/%D0%BE%D0%B4%D0%B5%D0%B6%D0%B4%D0%B0/shoponline#/dept=clothingmen&gender=U&page=1&season=X'

headers = {'user-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0',
			'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

def getClothes(url,page_id):
	clothes = []
	respones = requests.get(url,headers=headers)
	soup = BeautifulSoup(respones.text,'lxml')

	mainContent = soup.find('div',id=f'srpage{page_id}')
	products = mainContent.find_all('div',class_='col-8-24')

	for product in products:

		brand = product.find('div',class_='itemContainer')['data-brand'] # Бренд
		cod10 = product.find('div',class_='itemContainer')['data-current-cod10'] # Для формирования ссылки yoox.com/ru/{cod10}/item
		category = product.find('div',class_='itemContainer')['data-category']	# Категория
		oldPrice = product.find('span',class_='oldprice text-linethrough text-light') # Старая цена (может не быть)
		newPrice = product.find('span',class_='newprice font-bold') # Новая цена (может не быть)
		
		if oldPrice is not None:
			# Данный код выполняется только, если на товар есть скидка
			sizes = product.find_all('div',class_='size text-light')
			str_sizes = ''

			for x in sizes:
				str_sizes += x.text.strip().replace('\n',';')
			clothes.append({'art':cod10,
							'brand':brand,
							'category':category,
							'url':f'https://yoox.com/ru/{cod10}/item',
							'oldPrice':oldPrice.text,
							'newPrice':newPrice.text,
							'sizes':str_sizes
							})
	return clothes


def getLastPage(url):
	respones = requests.get(url,headers=headers)
	soup = BeautifulSoup(respones.text,'lxml')
	id = soup.find_all('li', class_ = 'text-light')[2]
	
	return int(id.a['data-total-page']) + 1

def writeCsvHeader():
	with open('yoox_man_clothes.csv', 'a', newline='') as file:
		a_pen = csv.writer(file)
		a_pen.writerow(('Артикул', 'Ссылка', 'Размеры', 'Бренд', 'Категория', 'Старая цена', 'Новая цена'))	

def files_writer(clothes):
	with open('yoox_man_clothes.csv', 'a', newline='') as file:
		a_pen = csv.writer(file)
		for clothe in clothes:
			a_pen.writerow((clothe['art'], clothe['url'], clothe['sizes'], clothe['brand'], clothe['category'], clothe['oldPrice'], clothe['newPrice']))


if __name__ == '__main__':
	writeCsvHeader() # Запись заголовка в csv файл
	lastPage = getLastPage(url) # Получаем последнею страницу
	for x in range(1,lastPage): # Вместо 1 и lastPage можно указать диапазон страниц. Не начинайте парсить с нулевой страницы!
		print(f'Скачавается: {x} из {lastPage-1}')
		url = f'https://www.yoox.com/RU/shoponline?dept=clothingmen&gender=U&page={x}&season=X&clientabt=SmsMultiChannel_ON%2CSrRecommendations_ON%2CNewDelivery_ON%2CRecentlyViewed_ON%2CmyooxNew_ON'
		files_writer(getClothes(url,x)) # Парсим и одновременно заносим данные в csv

Парсинг на python. Как исправить работу пагинации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт