Как прокрутить страницу до конца и обработать полную страницу в BeautifulSoup?

Question

Денис Бондаренко @Mad_Electron

Веб-разработчик

Python

Как прокрутить страницу до конца и обработать полную страницу в BeautifulSoup?

Дано: страница интернет-магазина, которую нужно разобрать BeautifulSoup'ом.
При первичной загрузке отображаются условно говоря 20 товаров, но при скролле страницы добавляются новые строчки с товарами. Как условно "прокрутить" страницу донизу, и засунуть в суп её целиком?

Пробовал Selenium'ом, но он открывает браузер, а мне это не подходит.

Вопрос задан более трёх лет назад
5896 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 156 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 215 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 146 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 115 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 250 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 136 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 140 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 142 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 259 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 427 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2015-07-30 15:49:57

BeautifulSoup не загружает страницы.
Скроллить обычными requests'ами или urlib'ами у вас не получится. Нужен именно браузер. То есть - Selenium.

Answer 2 · 2017-07-07 19:32:11

Делал аналогичную задачу использовал Selenium

#!/usr/bin/env python3
from urllib.request import Request, urlopen
import re,csv

import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


BASE_URL = 'https://kingfashion.com/ru/boys-riot-club/'



def get_html(url):
    # req = Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
    # response = urlopen(req).read()
    driver = webdriver.Firefox()
    driver.get(url)
    # driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    SCROLL_PAUSE_TIME = 3

    # Get scroll height
    last_height = driver.execute_script("return document.body.scrollHeight")

    while True:
        # Scroll down to bottom
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # Wait to load page
        time.sleep(SCROLL_PAUSE_TIME)

        # Calculate new scroll height and compare with last scroll height
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height
    return driver.page_source

def parse_url(html):
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('div', {'class': 'category-products'})
    rows = table.find_all('div', {'class': 'product-info'})

    projects = []
    for row in rows:
        cols = row.find_all('h2')
        projects.append({
            'title': cols[0].text,
            'url': cols[0].a['href']

        })
    return projects

def save_url(projects,path):
    with open(path,'w', newline='') as csvfile:
        writer = csv.writer(csvfile, delimiter=';')
        writer.writerow(('Название', 'URL'))
        writer.writerows(
            (project['title'],project['url']) for project in projects
        )



def main():
    all_url = parse_url(get_html(BASE_URL))
    save_url(all_url, 'url.csv')
    # get_html(BASE_URL)
if __name__ == '__main__':
    main()

Answer 3 · 2015-07-30 17:26:16

yueeucrl @yueeucrl

используй phantomjs

Ответ написан более трёх лет назад

Комментировать

Как прокрутить страницу до конца и обработать полную страницу в BeautifulSoup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт