Scrapy парсит не ту страницу?

Question

NoXXik @NoXXik

Scrapy парсит не ту страницу?

В общем, для закрепления знаний по scrapy решил сделать парсер steam вещей из кс го. Столкнулся с проблемой, что первую страницу парсит, и когда подается второй link то прилетают опять данные с первого linka, посмотрев логи понял что ссылка вида https://steamcommunity.com/market/search?appid=730... приобретает вид https://steamcommunity.com/market/search?appid=730 - это и есть первая страница. Получается он парсит одну и ту же страницу дважды, потом выдает ошибку что это повторный парсинг и вырубает паука.

DEBUG: Crawled (200) %20%20%20%205B%5D=any&category_730_StickerCapsule%5B%5D=any&category_730_TournamentTeam%5B%5D=any&category_730_Weapon%5B%5D=any%20%20%20%20&appid=730#p2_popular_desc
> (referer: None)
2020-07-05 20:56:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://steamcommunity.com/market/search?q=&catego...
%20%20%20%205B%5D=any&category_730_StickerCapsule%5B%5D=any&category_730_TournamentTeam%5B%5D=any&category_730_Weapon%5B%5D=any%20%20%20%20&appid=730>

class ItemParser(scrapy.Spider):
    name = 'steam_items'
    start_urls = ["""https://steamcommunity.com/market/search?q=&category_730_ItemSet%5B%5D=any&category_730_ProPlayer%
    5B%5D=any&category_730_StickerCapsule%5B%5D=any&category_730_TournamentTeam%5B%5D=any&category_730_Weapon%5B%5D=any
    &appid=730#p2_popular_desc"""]

    def parse(self, response):
        count_pages = 6
        page_num = 2
        items = PriceParserItem()

        items_rows = response.xpath('//*[@id="searchResultsRows"]').css("a.market_listing_row_link")

        for row in items_rows:
            name = row.css(".market_listing_item_name::text").extract()
            count = row.css(".market_listing_num_listings_qty::text").extract()
            nprice = row.css(".normal_price::text").extract()[2]
            sprice = row.css(".sale_price::text").extract()
            link = row.css("a::attr(href)").get()

            items['item_name'] = name
            items['item_count'] = count
            items['item_nprice'] = nprice
            items['item_sprice'] = sprice
            items['item_link'] = link
            yield items

            # https://steamcommunity.com/market/search?appid=730#p2_popular_desc
        if page_num < count_pages:
            next_page = """https://steamcommunity.com/market/search?q=&category_730_ItemSet%5B%5D=any&category_730_ProPlayer%
     5B%5D=any&category_730_StickerCapsule%5B%5D=any&category_730_TournamentTeam%5B%5D=any&category_730_Weapon%5B%5D=any
     &appid=730#p""" + str(page_num) + '_popular_desc'
            page_num += 1
            yield scrapy.Request(next_page, callback=self.parse)

Вопрос задан более трёх лет назад
144 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- час назад
- 13 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- час назад
- 41 просмотр
2

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 3 часа назад
- 77 просмотров
0

ответов
Парсинг

Средний
Как автоматически скачивать файл с сайта регулярно?
- 1 подписчик
- 8 часов назад
- 40 просмотров
2

ответа
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 21 час назад
- 74 просмотра
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 58 просмотров
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 75 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 101 просмотр
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 71 просмотр
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать CRM/ERP проект на Pure Php + Symfony

26 апр. 2024, в 18:27

200000 руб./за проект

Таргетированная реклама в Tik Tok

26 апр. 2024, в 18:24

80000 руб./за проект

Протестировать виджет на личном сайте

26 апр. 2024, в 18:00

500 руб./за проект

Answer 1 · 2020-07-05 21:22:59

все что после #на сервер не передается

такие сайты парсятся не так

смотри Console что там и куда и откуда

Answer 2 · 2020-07-05 21:57:12

Посмотрите откуда берутся данные. Там GET подобного вида
https://steamcommunity.com/market/search/render/?q...
с замечательным JSON в виде ответа.
В цикле быстрей перебрать будет, и вид сразу готовый

Scrapy парсит не ту страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт