Как устранить парсинг одной и той же картинки?

Question

NewUser9901 @NewUser9901

Как устранить парсинг одной и той же картинки?

Всем привет!
Написал код для парсинга url-картинок, но проблема заключается в том, что парсится одна и та же картинка. Я так понимаю не меняется значение index при парсинге? Как можно это исправить? Подскажите, пожалуйста.

import requests
from bs4 import BeautifulSoup
import json

URL = 'https://www.luscious.net/albums/chikan-densha_268925/read/?index=0&view=slideshow&sorting=rating_all_time' 
HEADERS = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'user-agent': '...'
}

def get_html(url, params = ' '):
    r = requests.get(url, headers = HEADERS, params = params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_ = 'o-flex-column-center')
    img_url = []
    for item in items:
        img_url.append(item.find('div', class_ = 'o-flex-center picture-frame-wrapper').find('img').get('src')) # получение url картинки

    return img_url

def parser():
    PAGENATION = input('Введите кол-во картинок: ') # ввод до какого index идёт парсинг
    PAGENATION = int(PAGENATION.strip())
    html = get_html(URL)
    if html.status_code == 200:
        img_url = []
        for index in range(1, PAGENATION):
            print(f'Парсим {index} картинку')
            html = get_html(URL, params= {'index': index}) # получение html и смена значения index
            img_url.extend(get_content(html.text))
        with open('test.txt', 'w') as f: # запись результата
            f.write(json.dumps(img_url))
    else:
        print('error')

parser()

Вопрос задан более трёх лет назад
169 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

devdb @devdb

import re,requests
url='...'
found = re.findall( r'<img[^>]+\bsrc=["\']?([^"\']+)["\']', requests.get(url).text)
print(found)  # list of <img> urls

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

NewUser9901 @NewUser9901 Автор вопроса

Хотел таким образом поменять значение index на +1

Написано более трёх лет назад
Denis Melnikov @Mi11er
NewUser9901, не поменяется. Удалите этот параметр из URL , и оставьте в requests.get

import requests as r res = r.get("https://google.ru/?index=1", params = {"index":"2"}) res.url 'https://www.google.ru/?index=1&index=2'
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 154 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 101 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 113 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 377 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 244 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 685 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 558 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 311 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 582 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 231 просмотр
2

ответа
Показать ещё Загружается…

import re,requests url='...' found = re.findall( r'<img[^>]+\bsrc=["\']?([^"\']+)["\']', requests.get(url).text) print(found) # list of <img> urls

Answer 1 · 2020-12-17 14:55:49

А что конкретно у вас должно делаться тут
html = get_html(URL, params= {'index': index})
Он же добавить к URL еще один параметр index

Как устранить парсинг одной и той же картинки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт