Почему может расти потребление памяти Scrapy?

Question

Max Payne @YardalGedal

yeah boy

Почему может расти потребление памяти Scrapy?

prefs() говорит, что больше всего памяти занимают объекты Selector() и Response().
Много - 10-12 гигабайт за несколько часов работы.
Работаю со скрапи так (базовый спайдер):

class BaseAcrossSearchSpider(BaseAcrossSearchMixin, BaseSpider):
    ITEMS_OBJECTS: str = ''
    ITEM_URL_OBJECT: str = ''
    NEXT_BUTTON_OBJECT: str = ''
    CONTINUE_IF_NEXT_BUTTON_OBJECT_IS: bool = True

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self._last_page: int = self.START_PAGE

    def start_requests(self) -> None:
        yield Request(self._search_url(self.START_PAGE), callback=self.parse)

    def parse(self, response: Response) -> Any:
        for short_item in response.css(self.ITEMS_OBJECTS):
            yield Request(
                self._page_url(short_item.css(self.ITEM_URL_OBJECT).extract_first()),
                self._process_item(short_item)
            )

        if self.CONTINUE_IF_NEXT_BUTTON_OBJECT_IS is bool(response.css(self.NEXT_BUTTON_OBJECT)):
            yield Request(self._search_url(self._last_page + 1), self.parse)

    def _process_item(self, short_item: Selector) -> Callable:
        def wrapper(response: Response):
            """
            downloader мидлвейр проверяет, ходил ли спайдер уже по этому адресу (redis).
            Если ходил, возвращает пустой Response()
            """
            if response.body:
                return self._parse(self.FULL_MODEL,
                                   self.full_loader,
                                   response=response,
                                   url=response.url,
                                   utc_created_at=datetime.utcnow(),
                                   utc_actually_at=datetime.utcnow())
            else:
                return self._parse(self.SHORT_MODEL,
                                   self.short_loader,
                                   selector=short_item,
                                   url=response.url,
                                   utc_actually_at=datetime.utcnow())
        return wrapper

    def _parse(self,
               model: dict,
               loader,
               selector: Selector = None,
               response: Response = None,
               **kwargs):

        if not selector and response:
            selector = response.selector

        loader = loader(item=self.item(), selector=selector)

        for element, handler in model.items():
            if callable(handler):
                deque(map(loader.add_value, element, handler(selector)))
            else:
                loader.add_css(element, handler)

        for k, v in kwargs.items():
            loader.add_value(k, v)

        return loader.load_item()

    def _search_url(self, page: Optional[int]) -> str:
        ...

(дочерний спайдер)

class ChildaSpider(ChildaMixin, BaseAcrossSearchSpider):
    SHORT_MODEL = {
        ('price_base', 'price_total'): _get_prices,
    }

    FULL_MODEL = {
        'price_base': 'p.basePrice__price span::text',
        'price_total': 'p.totalPrice__price span::text',
        ...
        ('body_type', 'color', 'vin', 'engine_size', 'engine_type', 'drive_type',
         'steering_location', 'transmission', 'passengers_count', 'doors_count'):
            _get_elements_from_table(range(1, 11), 2)
    }

    ITEMS_OBJECTS = 'div.casetMain'
    ITEM_URL_OBJECT = 'a::attr("href")'
    NEXT_BUTTON_OBJECT = 'button.btnFunc pager__btn__next[disabled]'
    CONTINUE_IF_NEXT_BUTTON_OBJECT_IS = False

Где-то я что-то делаю не так?

Вопрос задан более трёх лет назад
207 просмотров

Комментировать

Подписаться 5 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 6 часов назад
- 44 просмотра
1

ответ
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- 18 дек.
- 165 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 212 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 66 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 186 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 211 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 240 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 235 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 156 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2019-06-02 14:47:01

В общем, на сколько я понял, память у меня и не текла.

Проблема в алгоритме, который в методе parse() и настройках, которые я использовал для парсинга. Значения конкуретных запросов и тредов у меня слишком высоки, а значение DEPTH_PRIORITY было установлено по-умолчанию (0).

Таким образом получалось, что страницы поиска парсились быстрее, чем генерировались айтемы на основании записей с них, создавалась длинная очередь и память переполнялось. Помогла установка значения DEPTH_PRIORITY = 1.
Однако скорость парсинга, к сожалению, снизилась.
Старт двух спайдеров в двух разных процессах немного улучшил ситуацию.

Почему может расти потребление памяти Scrapy?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт