Как спарсить все артикулы со страницы с бесконечным скроллом на Beautifulsoup + Selenium?

Question

gullveig @gullveig

Как спарсить все артикулы со страницы с бесконечным скроллом на Beautifulsoup + Selenium?

Идея – парсер, который собирает артикулы только без картинок, т.е. с содержанием src в виде файла с расширением svg.

Но страница прокручивается полностью, а парсятся максимум первые 30 артикулов.

import bs4
import requests
import collections
import logging
import csv
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup as bs

logging.basicConfig(level=logging.DEBUG)
logger = logging.getLogger('wb')

ParseResult = collections.namedtuple(
'ParseResult',
(
'brand_name',
'url_image',
),
)
HEADERS = (
'Brand',
'Link',
)

driver = webdriver.Chrome(
'C://Users/roman/AppData/Local/Programs/Python/Python37-32/Lib/site-packages/selenium/common/chromedriver_win32 (1)/chromedriver.exe')
driver.get('https://upakovka-spb.ru/category/2-odnorazovaya-po...')
SCROLL_PAUSE_TIME = 0.5

# Get scroll height

import time
counter = 0
for _ in range(8):
driver.execute_script("window.scrollBy(0, arguments[0]);", counter)
counter += 1000
time.sleep(2)

source_data = driver.page_source
soup = bs(source_data)

class Client:
def __init__(self):
self.session = requests.Session()
self.session.headers = {
'User-Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 84.0.4147.89 Safari / 537.36'
}
self.result = []

def load_page(self, page: int = None):
url = ('https://upakovka-spb.ru/category/2-odnorazovaya-po...')
res = self.session.get(url=url)
res.raise_for_status()
return res.text

def parse_page(self, text: str):
soup = bs4.BeautifulSoup(text, 'lxml')
container = soup.select('div.s-product-block')
for block in container:
self.parse_block(block=block)

def parse_block(self, block):
# logger.info(block)
# logger.info(' ' * 100)
url_image = block.select_one('img[src$="svg"]')
if not url_image:
logger.error('image')
return
image = url_image.get('src')
if not image:
logger.error('yesimage')
brand_name = block.select_one('h5.s-product-header')
if not brand_name:
logger.error(f'no brand_name on {url}')
return
brand_name = brand_name.text
brand_name = brand_name.replace('/', '').strip()
logger.info('%s, %s', url_image, brand_name)

def save_result(self):
path = 'C:/Users/roman/PycharmProjects/new/product_scraper/result.csv'
with open(path, 'w') as f:
writer = csv.writer(f, quoting=csv.QUOTE_MINIMAL)
writer.writerow(HEADERS)
for item in self.result:
writer.writerows(item)

def run(self):
text = self.load_page()
self.parse_page(text=text)

self.save_result()

if __name__ == '__main__':
parser = Client()
parser.run()

Вопрос задан более трёх лет назад
848 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 2

1 комментарий

Alexa2007 @Alexa2007
Сергей Карбивничий, Как-то пытался с помощью Beautifulsoup парсить инстаграм, и могу сказать, что вы меня раззадорили:
Во первых, если есть возможность парсить страницы добавляя "?page=1" , то использование Selenium только усложняет этот процесс (time.sleep(2))
А вот использование супа можно запустить в многопоточности:

import requests from multiprocessing.dummy import Pool as ThreadPool url = 'https://upakovka-spb.ru/category/2-odnorazovaya-posuda/11-kontyeynyery/?page=' urls = [url+str(i) for i in range(1,4)] print(urls) def get_url(url): r = requests.get(url) print(r) pool = ThreadPool(4) results = pool.map(get_url, urls) pool.close() pool.join()

И если скролить, через некоторое время закончится оперативка, и кроме парсера, зависнет еще и компьютер.

А вот инсту парсил только Selenium (Страница блогера) и скролил около трёх тысяч постов. И заметил то, что браузер на котором паразитирует Selenium самостоятельно выгружает лишнюю инфу. Ведь не гоже для хорошего браузера положить комп одной страницей
Написано более трёх лет назад

4 комментария

gullveig @gullveig Автор вопроса

Скажите, я только недавно разбираюсь с Селениумом. Задачу типа моей в принципе можно решить только им, без BS и прочего? Если мне нужно выцепить не все src, а с определенным расширением.

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome(
'C://Users/roman/AppData/Local/Programs/Python/Python37-32/Lib/site-packages/selenium/common/chromedriver_win32 (1)/chromedriver.exe')
driver.get('https://upakovka-spb.ru/category/2-odnorazovaya-po...')

images = driver.find_elements_by_css_selector('img[src*=svg]')
print(images.text)

Вот такое не работает. Лучше ничего не придумать пока ничего...

Написано более трёх лет назад

Alexa2007 @Alexa2007

Хм....Странно...Но всё работает:)))
Дело в том, что в images вы помещаете несколько объектов, а text просите не понятно у кого. А просить надо у каждого по очереди. И кстати текста там НЕТУ. Вот то что находит селениум:

<img src="/wa-data/public/shop/themes/hypermarketcustom/img/svg/empty_photo.svg" alt="БЕЗ КРЫШКИ Контейнер   Д-Полимер 0,500 л PP 186*132 прозр. (100) (500) ДП" itemprop="image">

И просить можно только то что есть. А текста нету... Но думаю это то что вам надо:

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome(
'C://Users/roman/AppData/Local/Programs/Python/Python37-32/Lib/site-packages/selenium/common/chromedriver_win32 (1)/chromedriver.exe')
driver.get('https://upakovka-spb.ru/category/2-odnorazovaya-posuda/11-kontyeynyery/')

images = driver.find_elements_by_css_selector('img[src*=svg]')
for _ in images:
    print(_.get_attribute("alt"))

Написано более трёх лет назад

Alexa2007 @Alexa2007

Кодировку так и не победил...сам мучайся )))
Этот код работает в сто раз быстрее
Результат сохраняется в json

from bs4 import BeautifulSoup
import requests
import json

URL='https://upakovka-spb.ru/category/2-odnorazovaya-posuda/11-kontyeynyery/?page='

ruslt={}

def get_info(url):
    page = requests.get(url)
    if page.status_code == 200:
        src=[]
        i=0
        soup = BeautifulSoup(page.text,'html.parser')
        ul = soup.find_all('a',class_ = 's-image')
        for _ in ul:
            href ='https://upakovka-spb.ru/' + _.get('href')
            src = _.find('img').get('src')
            title = _.get('title')
            if src.split('.')[-1] == 'svg':
                i+=1
                ruslt[i]=[title,href]

    with open('result.json','w') as json_file:
        json.dump(ruslt,json_file, ensure_ascii=True, indent = 4)


for _ in range(1,5):
    get_info(URL+str(_))

Написано более трёх лет назад

gullveig @gullveig Автор вопроса

Alexa2007, огромное спасибо!

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 3 часа назад
- 77 просмотров
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 4 часа назад
- 28 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- вчера
- 148 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 147 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 193 просмотра
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 388 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 226 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 152 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Answer 1 · 2021-03-13 12:41:00

Скролить категорически не рекомендую! Представьте, что там +100500 страниц. И если скролить, через некоторое время закончится оперативка, и кроме парсера, зависнет еще и компьютер.

Вместо этого, лучше к ссылке добавить параметр "?page=1" - где число - номер страницы. И в цикле увеличивать число, пока на странице не появится текст вроде - "В этой категории нет ни одного товара."

Answer 2 · 2021-03-13 11:03:11

#
# Оооооочень удобно использовать jupyter notebook
# 
# Beautifulsoup я не использую
#
# Selenium тоже многое умеет
# но это твой выбор
#
#

def find_all_links():
    time.sleep(2)
    posts=[]
    links = driver.find_elements_by_tag_name('a')
    for link in links:
        post = link.get_attribute('href')
        if '/p/' in post:
            posts.append( post )
    
    return posts

posts = []#Для хранения результата
def scroll_end():#Перемотка до конца страницы
    lenOfPage = driver.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
    match=False
    global posts
    while(match==False):
        lastCount = lenOfPage
        time.sleep(3)
        lenOfPage = driver.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
        print(lenOfPage)
        if lastCount==lenOfPage:#Если доскролили до конца
            match=True
        psts = find_all_links()#Выполняю поиск того что мне надо
        posts += psts#Результат добавляю
        print(len(posts))#слежу за тем что происходит
scroll_end()

Как спарсить все артикулы со страницы с бесконечным скроллом на Beautifulsoup + Selenium?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт