Почему парсер не может спарсить страницу, которую ему задаю?

Question

ParnishkaSPB @ParnishkaSPB

Почему парсер не может спарсить страницу, которую ему задаю?

import requests
from bs4 import BeautifulSoup
import csv

# URL = 'https://101hotels.com/recreation/russia/sankt-peterburg/points#page=2'(Пробелы стоят нарочно)
FILE = 'Par.csv'



def get_html(url):
    r = requests.get(url)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('li', class_='item')

    objects = []
    for item in items:
        try:
            objects.append({
                'title': item.find('div', class_='item-name').text,
                'address': item.find('span', class_='item-address').text,
                'p': item.find('div', class_='item-description').text.replace('\xa0',''),
            })
        except:
            pass
    return objects


def save_file(items, path):
    with open(path, 'w', newline='') as file:
        writer = csv.writer(file, delimiter=';')
        writer.writerow(['Объект', 'Адрес', 'Описание'])
        for item in items:
            writer.writerow([item['title'], item['address'], item['p']])


def parse():
    URL = input('Введите URL: ')
    URL = URL.strip()
    html = get_html(URL)
    try:
        objects = []
        objects.extend(get_content(html.text))
        save_file(objects, FILE)
    except:
        print('Error')




parse()

Захотел сделать парсер интересных мест в СПб, всё, вроде бы, ок, но проблема в том, что страниц там много, и при парсинге он выдал результат только 1 страницы из 14, хотя продолжал парсить. Я подумал, что где-то накосячил, и убрал счётчик страниц и URL ввожу с рук. Но дилемма в том, что, даже если я просто вкину ему URL 2-ой и т.д. страницы, ничего не поменяется, результат - 1 страница. Не могли бы вы помочь мне решить проблему с парсингом оставшихся страниц?

Вопрос задан более трёх лет назад
755 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- вчера
- 239 просмотров
2

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 155 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 252 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 158 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 597 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 558 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 149 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2020-06-19 12:36:40

Сайт подгружает информацию JS-ом, который отправляет запрос на сервер. Можно посмотреть, какие запросы выполняются. (Firefox - Ctrl + Shift + E)
И можно заметить, что при переходе на другую страницу выполняется какой-то запрос.

GET - https://101hotels.com/api/facility/search
Query string:
r=0.0000530041150925655330.07492892309472692
params={"city_ids":[13],"category_url":"points"}
page=2

Выполнил запрос без параметра r, и всё работает.

import requests
import json

def gen_params(page, city_ids=[13]):
    return {
        'page': page,
        'params': json.dumps({
            'city_ids': city_ids,
            'category_url': 'points'
        })
    }

data = []
for page in range(1, 6):
    r = requests.get("https://101hotels.com/api/facility/search", params=gen_params(page))
    data.extend(r.json()['response'])

print(json.dumps(data[-1], indent=4, ensure_ascii=False, sort_keys=True))

Почему парсер не может спарсить страницу, которую ему задаю?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт