Почему парсер на Python повторно парсит начальную страницу, в количестве указываемом при пагинации?

Question

fuad_971 @fuad_971

Почему парсер на Python повторно парсит начальную страницу, в количестве указываемом при пагинации?

import requests
from bs4 import BeautifulSoup

HOST = 'https://mir-vuzov.ru/'
URL = 'https://mir-vuzov.ru/top'
HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}

def get_html(url, params=None):
    r = requests.get(url, headers=HEADERS, params=params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='itemContainer')


    vuz = []
    for item in items:
        vuz.append({
            'title': item.find('div', class_='catItemView').find('div', class_='catItemBody').find('div', class_='content-intro').find('div', class_='catItemHeader').find('h2').get_text(strip=True) ,
            'region' : item.find('div', class_='catItemView').find('div', class_='catItemBody').find('div', class_='content-intro').find('div', class_='specialization').get_text(strip=True) ,
            'link' :  HOST + item.find('div', class_='catItemView').find('div', class_='catItemBody').find('div', class_='catItemImageBlock').find('a').get('href')
        })
    return vuz

def parse():
    PAGENATION = input('Количество страниц: ')
    PAGENATION = int(PAGENATION.strip())
    html = get_html(URL)
    if html.status_code == 200:
        vuz = []
        for page in range (1, PAGENATION+1):
            print(f'Идет парсинг странцицы {page}')
            html= get_html(URL, params={'start' : page})
            vuz.extend(get_content(html.text))
        print(vuz)
        print(len(vuz))
    else:
        print('Error')


parse()

Этот код парсит начальную страницу по нескольку раз, при этом не переходит к последующим страницам. В итоге выдает повтор названий вузов только с 1 страницы. Прошу указать причину данной ошибки

Вопрос задан более трёх лет назад
87 просмотров

4 комментария

Подписаться Простой 4 комментария

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Фулстек-разработчик на Python

19 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 193 просмотра
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 234 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 153 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 262 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 431 просмотр
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Оформи код как положено, нечитаемо же. (кнопка </>)
Алексей Уколов, Спасибо, все работает, правда первая страница не парсится

Answer 1 · 2022-05-13 14:44:22

Я не знаю куда ты смотрел, но ты явно не заметил, что ссылка на вторую страницу имеет вид https://mir-vuzov.ru/top?start=10, и добавляет 10 на каждую следующую страницу.
И да, если проверить, ссылка на 11, 12 и т.п. открывает ту же страницу, что и ссылка на 10.

Почему парсер на Python повторно парсит начальную страницу, в количестве указываемом при пагинации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт