Ответы пользователя Maксим Волков по тегу «Beautiful Soup»

Задать вопрос

Ответы пользователя по тегу Beautiful Soup

Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку "показать еще", чтобы подгрузило еще 20 постов?
Maксим Волков @voland700
Использовать Selenium.

Возможен вариант (но не факт), посмотреть в инструментах разработчика браузера на наличие ссылок пагинации, по которым подгружается контент при нажатии на кнопку "показать ещё", определить последнюю ссылку - и пробежаться по ним в цикле - для получения ссылок на загружаемый контент.

Ответ написан 08 апр.

Комментировать
Комментировать

У меня не получается спарсить ссылку на фото с сайта, help?

Maксим Волков @voland700

Если необходим получить ссылку на .webp - файл из атрибута srcset тега source:

img_url = figure.find('source')['srcset']

К примеру код, который извлекает ссылку на картинку и скачивает файл с изображением с указанного вами сайта.

from bs4 import BeautifulSoup
import requests
import fake_useragent
import os

ua = fake_useragent.UserAgent()
headers = {"User-Agent": ua.random}

url = 'https://new-science.ru/rasseivanie-almaznyh-nanochastic-v-stratosfere-mozhet-zamedlit-globalnoe-poteplenie/'

def get_files(link, folder='images'):
    resp = requests.get(link, stream=True)
    filename = os.path.basename(link)
    if not os.path.isdir(folder):
        os.mkdir(folder)
    file = open(f"{folder}/{filename}", 'bw')
    for chunk in resp.iter_content(4096):
        file.write(chunk)
    return filename

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

figure = soup.find('figure', class_ ="single-featured-image")
#img_url = figure.find('img')['src']
img_url = figure.find('source')['srcset']

get_files(img_url, 'images')

print(img_url)

Ответ написан 07 апр.

Комментировать

Самые активные сегодня

Indread
- 4 ответа
- 0 вопросов
Алексей Леонов
- 3 ответа
- 0 вопросов
Zerg89
- 2 ответа
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
Researcher
- 2 ответа
- 0 вопросов
Gosha04ye
- 2 ответа
- 0 вопросов

Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку "показать еще", чтобы подгрузило еще 20 постов?

У меня не получается спарсить ссылку на фото с сайта, help?

Войдите на сайт