Как исключить часть результатов парсинга, если по одному из пунктов парсинга нет данных?

Question

n4ural @n4ural

Как исключить часть результатов парсинга, если по одному из пунктов парсинга нет данных?

Не выводит результат в таблицу, столбцы получаются разных размеров
А разных размеров они из-за того, что когда товара нет в наличии, то цена не указывается и пункт цены просто не заполняется

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
from collections import OrderedDict

url_template = "https://estel-shop.ru/catalog/ukhod/?PAGEN_1="
file_name = 'ukhod.xlsx'

page = 1
maxpage = 17

href = []
title = []
cost = []

while True:
    url = url_template + str(page)
    r = requests.get(url)
    r.encoding = 'utf-8'

    soup = bs(r.text, 'html.parser')
    product_names = soup.find_all('div', class_='item-title')
    product_price = soup.find_all('span', class_='price_value')

    if page <= maxpage:
        for name in product_names:
            href.append('https://estel-shop.ru' + name.a['href'])
            title.append(name.text)
        for price in product_price:
            cost.append(price.text)
        page += 1
        print(url)
    else:
        break

result_list = {'href': href, 'title': title, 'cost': cost}

df = pd.DataFrame(data=result_list)
df.to_excel(file_name)

Пробовал так, но просто ничего не происходит

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
from collections import OrderedDict

url_template = "https://estel-shop.ru/catalog/ukhod/?PAGEN_1="
file_name = 'ukhod.xlsx'

page = 1
maxpage = 17

href = []
title = []
cost = []
stock = []

while True:
    url = url_template + str(page)
    r = requests.get(url)
    r.encoding = 'utf-8'

    soup = bs(r.text, 'html.parser')
    product_names = soup.find_all('div', class_='item-title')
    product_price = soup.find_all('span', class_='price_value')
    product_stock = soup.find_all('div', class_='items-stock')

    if page <= maxpage:
        for stock_check in product_stock:
            stock.append(stock_check.text)
            if stock != 'Нет в наличии':
                for name in product_names:
                    href.append('https://estel-shop.ru' + name.a['href'])
                    title.append(name.text)
                for price in product_price:
                    cost.append(price.text)
                page += 1
                print(url)
    else:
        break

result_list = {'href': href, 'title': title, 'cost': cost}

df = pd.DataFrame(data=result_list)
df.to_excel(file_name)

Вопрос задан более трёх лет назад
171 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

3 комментария

n4ural @n4ural Автор вопроса

Спасибо большое!

Написано более трёх лет назад

Никита Булгак @Keffmen

n4ural, что то рабочее вот

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd


url_template = "https://estel-shop.ru/catalog/ukhod/?PAGEN_1="
file_name = 'ukhod.xlsx'

href = []
title = []
cost = []

for i in range(18):
    url = url_template + str(i)
    print(url)
    r = requests.get(url)
    r.encoding = 'utf-8'
    soup = bs(r.text, 'html.parser')
    print(f"Код подключения : {r.status_code} ")

    catllog = soup.find_all('div', class_= 'catalog_item_wrapp')
    for block in catllog:
        product_names = block.find('div', class_='item-title')
        product_price = block.find('div', class_='price')
        product_stock = block.find('span', class_='value').text.strip()
        if product_stock != 'Нет в наличии':
            href.append('https://estel-shop.ru' + product_names.a['href'])
            title.append(product_names.text.strip())
            cost.append(product_price.text.strip())

result_list = {'href': href, 'title': title, 'cost': cost}

df = pd.DataFrame(data=result_list)
df.to_excel(file_name)

Написано более трёх лет назад

Никита Булгак @Keffmen

n4ural, отметь как правильный ответ если помог!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 3 часа назад
- 64 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 6 часов назад
- 63 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- вчера
- 72 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 156 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 90 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 385 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 227 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 359 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 266 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 169 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

какой результат парсинга ты должен получить?

Answer 1 · 2022-08-05 14:52:52

n4ural, вот ошибка

product_stock = soup.find_all('div', class_='items-stock')

Это строка находит пустоту и проверяет в дальнейшем пустоту , если ее исправить то получиться

product_stock = soup.find_all('span', class_='value')

и не правильная система перебора !
Это твой код

for stock_check in product_stock:
        if stock_check.text != 'Нет в наличии':
            for name in product_names:
                href.append('https://estel-shop.ru' + name.a['href'])
                title.append(name.text)
                print(name.text.strip())
                print('https://estel-shop.ru' + name.a['href'])
                for price in product_price:
                    print(price.text)
                    cost.append(price.text)

что выдает твой код :

Estel Princess Essex 10/76 Светлый блондин коричнево-фиолетовый (Снежный лотос)
https://estel-shop.ru/catalog/kraska_dlya_volos_1/5150/
360
1 060
670
385
385
670
670
770
950

вот и вся проблема !
Если нужна помощь пиши в Telegram Keffmen

Answer 2 · 2022-08-05 14:18:49

ThunderCat @ThunderCat

{PHP, MySql, HTML, JS, CSS} developer

при парсинге проверить цену, если нету - континуе, соответственно сет в результат не запишется.

Ответ написан более трёх лет назад

1 комментарий

Как исключить часть результатов парсинга, если по одному из пунктов парсинга нет данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт