Почему продолжает расти потребление ОЗУ?

Question

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

Почему продолжает расти потребление ОЗУ?

Пример используемого кода:

def get_data(url, data, data_counter):
    r = requests.get(url)
    soup = BS(r.text, 'lxml')
    ...
    ...
    ...
    scraped_data = {
        'title': title,
        'name': name,
        'description': description,
        'image': image,
        'rating': rating,
        'category': category,
        'link': link,
        'rss': extra_data['rss'],
        'email': extra_data['email'],
        'latest_date': latest_date
    }
    for a in range(len(articles)):
        podcast_data['listener_{}'.format(a+1)] = articles[a]
    data.append(scraped_data)
    data_counter.value += 1
    print('DONE №{}: {}'.format(data_counter.value, url))


if __name__ == "__main__":
    manager = Manager()
    data = manager.list()
    data_counter = manager.Value('i', 0)
    with Pool(999) as pool:
        for url in urls:
            pool.apply_async(get_data, (url, data, data_counter))
        pool.close()
        pool.join()
    result = []
    for d in data:
        result.append(d)
    create_csv(result)
    print(len(result))

Изначально этот код запускался на VPS с 12 ЦПУ и 64ГБ ОЗУ для обработки 600,000 страниц, проработал почти 10 часов и затем в логах я увидел сообщение:

Traceback (most recent call last):
File "scrape_mp.py", line 46, in get_email
match = re.search(r'[\w\.-]+@[\w\.-]+', r.text)
File "/home/kshnkvn/.local/lib/python3.6/site-packages/requests/models.py", line 861, in text
content = str(self.content, encoding, errors='replace')
MemoryError

После этой ошибки в логах пустота, т.е. скрипт остановил работу.
Попытался подключиться по SSH к VPS - ошибка подключения, пришлось перезагружать.
Увеличил характеристики VPS до 16 ЦПУ и 102 ГБ ОЗУ, запустил скрипт, как только скрипт начал работу было свободно около 55ГБ, начал наблюдать за потреблением памяти.
За первый час ушло около 5ГБ ОЗУ, за второй час 3ГБ, за третий час 2,5ГБ и потребление памяти продолжается дальше, но вроде-бы меньше и меньше.

Собственно: на что расходуется ОЗУ и можно-ли как-то это предотвратить именно для этого кода?

Вопрос задан более трёх лет назад
416 просмотров

7 комментариев

Подписаться 2 Средний 7 комментариев

longclaps @longclaps

В BS течет память, и это никто не чинит. Такшта только прибивать/перезапускать парсер.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

longclaps, т.е. это из-за bs?

Написано более трёх лет назад
longclaps @longclaps

Ivan Yakushenko, да.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

longclaps, с чем это может быть связано? К слову, когда делал последний замер в 16:03 было свободно 40,3 ГБ ОЗУ, сейчас - 40,5 ГБ. Т.е. спустя чуть больше 3х часов начало попускать.

Написано более трёх лет назад
longclaps @longclaps

Ivan Yakushenko, я не знаю, просто это общее место.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

longclaps, т.е. в теории soup.decompose() мог-бы помочь избавиться от утечки памяти? Сейчас перезапускать скрипт точно не буду, но в следующий раз попробую, может действительно беда в том, что не сразу из памяти удаляется объект soup. Хотя если это так в 100% случаев, то у меня сразу после запуска скрипта память закончилась-бы.

Написано более трёх лет назад
longclaps @longclaps

Ivan Yakushenko, я пас, я просто дал наводку.

Написано более трёх лет назад

Решения вопроса 1

41 комментарий

Ivan Yakushenko @kshnkvn Автор вопроса

Да ладно, не много же.
Тем-не менее память куда-то уходит постоянно и мне бы понять почему.

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, 1к процессов — не много? Нет, это порядка на два больше, чем должно быть. Сделай процессов 10 — тебе хватит. Если так окажется, что сеть не полностью загружается — перепиши на asyncio. Выброси к чёрту BS, он ужасен. Юзай lxml.

В конце концов, перепиши это чудо на паттерн producer-consumer, чтобы эффективно использовать и сеть и ЦП

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, сеть не полностью нагружается даже сейчас при 1к процессов, страницы ооооочень малого размера. На asyncio писал, ValueError: too many file descriptors in select() при ~350-400 потоках. Этого недостаточно.

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko,
ValueError: too many file descriptors in select()

Это говорит о том, что одновременно открыто слишком много соединений с сайтами и все эти твои соединения мешают друг другу. Поставь семафор на 100 одновременных соединений, тебе хватит

при ~350-400 потоках.

О каких потоках в asyncio ты говоришь?

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Нет, это порядка на два больше, чем должно быть

Да и вообще что означает "чем должно быть"? Я делаю столько, сколько мне нужно, а не сколько "где-то там должно быть".
Сделай процессов 10 — тебе хватит.

Не смешно-же. У меня 1к потоков и я хочу больше, а вы мне 10 предлагаете =)

Написано более трёх лет назад
Влад Григорьев @Vaindante

Roman Kitaev, Этому товарищу уже советовали правильные хорошие решения и аргументация там была. но человек считает что все эти решения оверхед и напишет свой хороший маленький велосипед.

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, Ну раз хочешь — ставь ради бога. Мы же тебе помочь хотим, а ты сопротивляешься)

Написано более трёх лет назад
Roman K @deliro

Влад Григорьев, типичный недоджун, который считает себя умнее остальных. Придётся ему пару лет повариться в своих велосипедах, прежде чем поймёт, что можно было сделать изначально нормально)

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Поставь семафор на 100 одновременных соединений, тебе хватит

И так стоял на 300 соединений. Больше - ValueError. Но при 300 соединениях все значительно медленнее.
О каких потоках в asyncio ты говоришь?

Я условно, не знаю как называются правильно асинхронные выполнения (или так и называются?).

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

но человек считает что все эти решения оверхед

Откуда придумали? Я использую большую часть того, что мне советуют здесь.
который считает себя умнее остальных

Считал-бы - не задавал-бы здесь вопросы.
Мы же тебе помочь хотим, а ты сопротивляешься

Чем? Советом, что 10 процессов лучше 1000? Единственный, кто в этой теме пытается помочь - это longclaps
Если вы не обратили внимания, то мой вопрос: на что расходуется ОЗУ и можно-ли как-то это предотвратить именно для этого кода?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko,

на что расходуется ОЗУ

На дерьмовую архитектуру и BS

можно-ли как-то это предотвратить

Можно. Написать нормально

можно-ли как-то это предотвратить именно для этого кода

Увы, говнокод на то и говнокод

Вместо того, чтобы брызгать тут слюной, ты мог бы загуглить ровно одно слово "producer-consumer" и уже переписать свой код нормально. Но видимо, мне ещё много лулзов от тебя прилетит :)

Написано более трёх лет назад
Влад Григорьев @Vaindante

Ivan Yakushenko, `with Pool(999) as pool` - это такое себе, и вам предлагали решения которые лучше масштабируются и которыми проще управлять.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Можно. Написать нормально

Хорошо, что в вашем понимании "нормально", что-бы была возможность за 1 минуту собирать 1000 записей с ~4000 страниц?
Допустим, BS выкинул, проблемы с памятью нет, отлично. asyncio работает в разы медленнее, чем multiprocessing в конкретно моем случае.
Увы, говнокод на то и говнокод

Мой говно-код решает мою задачу, вы предлагаете мне её не решать, только лишь потому что "нормального" способа решения задачи нет, а говно-код - это "фу". Я правильно вас понимаю?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, ты пришёл сюда с ошибкой, из-за которой твой код не решает твою проблему. Я тебя правильно понимаю?

asyncio физически не может медленней работать с IO, он создан для того, чтобы эффективно решать пробелемы с затупами IO. И чтобы догнать до этого, надо сначала узнать модель конкурентного программирования.

Парсить же страницы — это CPU bound задача, её НАДО разделять на процессы (в питоне надо именно процессы, а не потоки). asyncio тут только усугубит всё. Причём, количество процессов бессмысленно указывать больше, чем ядер у тебя в компуктере.

А чтобы эффективно расходовать время компухтера и твоё личное, драгоценное, нужно одновременно качать страницы и парсить уже скачанные, ставя контент страниц в очередь на парсинг и уже пулом процессов парсить. Это и называется producer-consumer.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Влад Григорьев, я и так использую scrapy/asyncio где это удобно сделать. Сейчас мне нужно проверять по 3500-4000 страниц в минуту, ни scrapy ни asyncio не удовлетворяют этим требованиям.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, нет, мой код работает и решает мою задачу, где вы вообще увидели в моем сообщении обратное?
Давайте еще раз продублирую вопрос: "Собственно: на что расходуется ОЗУ и можно-ли как-то это предотвратить именно для этого кода?". Сейчас "жор" ОЗУ очень незначительный, иногда даже память освобождается но вопрос всё еще актуальный.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, я правильно понимаю, что эффективнее будет загружать страницы с asyncio (aiohttp), загружать их в в условный html_pages = [] и оттуда процессами брать и парсить их?
Причём, количество процессов бессмысленно указывать больше, чем ядер у тебя в компуктере.

Почему? Если я запущу на данный момент 10 процессов, то они отработают гораздо медленнее, чем если запущу 100 процессов.

Написано более трёх лет назад
Влад Григорьев @Vaindante

Ivan Yakushenko, у вас память утекает из-за не правильного решения, что бы этого избежать надо внимательно почитать ответ Roman Kitaev

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko,

в условный html_pages = []

В условную очередь, которую ты сможешь шарить между процессами. Лучше, если это будет простой Redis. Хотя через сокет можно создать очередь тоже

Почему? Если я запущу на данный момент 10 процессов, то они отработают гораздо медленнее, чем если запущу 100 процессов.

Потому что у тебя скачивание (IO операция) и парсинг (CPU операция) происходят в одном месте. Если же ты в пуле процессов будешь ТОЛЬКО парсить, то каждый процесс будет загружать своё ядро на 100%. таким образом, N процессов (N - количество ядер у тебя) загрузят процессор максимально возможно, не мешая друг другу

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

загрузят процессор максимально возможно, не мешая друг другу

Т.е. эти условные 10 процессов будут отрабатывать максимально быстро и 100 задач по 10 процессов отработают быстрее, чем 100 процессов сразу?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, ну а как ты сам думаешь, может ли ЦП выполняться быстрее, чем на 100%?) Я бы не ставил вообще какую-то константу в пул, лучше питон сам выберет количество воркеров в пуле. Он поставит просто столько, сколько ядер у тебя и это будет максимально выгодное количество, которое будет полностью загружать ядра, но ещё не мешать друг другу (конечно же, при условии, что в воркерах не происходит IO операций)

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, понял, тогда что на счет другого:
Я захожу сначала на 1 страницу, нахожу на ней нужную мне ссылку, затем захожу по этой ссылке и там собираю нужную информацию, затем перехожу по еще одной ссылке и т.д.
Только для 1 записи мне нужно посетить минимум 3 страницы, иногда 5. Т.е. мне нужно зайти на страницу, спарсить с неё нужный результат и т.д.

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, Тогда тебе надо две очереди — на парсинг и на скачивание. asyncio выдирает из очереди на скачивание урлы, качает страницы и результаты складывает в очередь на парсинг. Пул процессов выдирает задания из очереди на парсинг, парсит их, делает какие-то действия и если нужно спарсить что-то ещё — кладёт в очередь на скачивание.

В целом, очереди можно реализовать в виде https://docs.python.org/3/library/multiprocessing....

Но я бы остановился на редисе, он простой как палка и есть привязки редиса и к синхронному питону, и к aio

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, а если обойтись все-таки 1 очередью?
Т.е. у меня есть основной сайт + 3 сайта с дополнительной информацией. Если я всегда с asyncio буду выгребать все 4 сайта и отдавать их через redis выполняться в multiprocessing?
С двумя очередями, как я вижу, будут плодиться лишние выполнения asyncio что может замедлить работу. Т.е. мне в любом случае нужно 100% грузить как минимум 2 страницы, если я буду грузить всегда 4 страницы, то это может быть быстрее, чем если создавать дополнительные асинхронные выполнения?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko,

будут плодиться лишние выполнения asyncio

Если эти страницы всё равно придётся скачать — то без разницы, когда это произойдёт. Однако, как я понял, чтобы понять, что именно надо качать, надо сначала распарсить главную страницу. То есть, парсинг, опять CPU-bound, а в ивент-луп asyncio не должно ничего попадать CPU-bound, иначе всё залагает

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса
Roman Kitaev, не, дополнительные страницы можно парсить и по url, передавая его в качестве параметра в запросе. Единственное исключение:
response = await r.text() match = re.search(r'[\w\.-]+@[\w\.-]+', response)

Я так понимаю это тоже CPU-bound и его нужно выкидывать из asyncio?
Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, Да, регулярки — CPU. Ну и раз уж это парсить, то можно и всё остальное распарсить сразу

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev,
Ну и раз уж это парсить, то можно и всё остальное распарсить сразу

в смысле?

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, извиняюсь, могу я в этом треде напоследок вам еще один вопрос задать касательно pub/sub механизма redis и создания multiprocessing pool?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, разумеется

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса
Roman Kitaev, получаю html со всех страниц:
html_scrape.py (pastebin)
получаю данные из этих html:
html_parse.py (pastebin)
1. Насколько такой подход близкий к правильному?
2. И куда мне все-таки впихнуть вот эту пару строк:
response = await r.text() match = re.search(r'[\w\.-]+@[\w\.-]+', response)

Суть в том, что этот кусок нужен для нахождения email на странице, ссылку на которую есть только на другой странице. Т.е. мне нужно: получить html страницы, распарсить её, найти ссылку на другую страницу и только на этой другой странице можно найти email. Все остальные страницы я могу в "сквозную" загружать с asyncio. Собственно, насколько сильно это может тормозить процесс парсинга html страниц, если я впихну туда 1 обычный реквест?
Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko,

По первому скрипту:
1. В каждом таске ты создаёшь соединение с редисом. Его нужно пошарить между всеми тасками, чтобы тратить время на установку соединения
2. while True блок может уйти в бесконечный цикл. Лучше-таки делать какую-то разумную отсечку
3. Сессию (aiohttp.ClientSession) лучше тоже таскать по всем корутинам и использовать одну на всех

В целом, подход правильный

По поводу "впихнуть пару строк" — можно попробовать оставить в первом скрипте, который качает данные. Я почти уверен, что одна регулярка почти не помешает IO операциям.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса
Roman Kitaev,
1. Т.е. я без проблем могу
pub = await aioredis.create_redis('redis://localhost')
оставить в __main__ и сам pub передавать в качестве аргумента? Ок.
2. Я использую публичные прокси конкретно для этого скрипта, там овер-много блоков и мертвых прокси. В том скрипте, который чисто на multiprocessing работает вроде ничего не зациклилось. Может поищу что-то среднее между паблик и приват прокси, тогда уберу while
3. Хорошо.

По поводу "впихнуть пару строк" — можно попробовать оставить в первом скрипте, который качает данные. Я почти уверен, что одна регулярка почти не помешает IO операциям

Вы не поняли. Основная проблема в том, что ссылку на страницу, где я применяю регулярку, получить можно распарсив 1 из 3 страниц, при чем на любой из этих страниц как может быть ссылка, так и нет.
Т.е. последовательность такая:
1. Паршу страницу.
2. Ищу на ней ссылку.
3. Если есть ссылка, то перехожу к п. 4, если нет, то повторяю п 1.
4. Загружаю новую станицу.
5. Прохожусь по ней регуляркой в поиске емеил.
Написано более трёх лет назад

Roman K @deliro

Ivan Yakushenko, ну, алгоритм придумать на базе архитектуры, я думаю, сам сможешь.

Вот, за 10 минут накидал примерный способ скачать и распарсить всю википедию. Конечно, этот код — говно, его следует нормально инкапсулировать в классы и всё такое, но я хотел донести идею:

spoiler

import asyncio
from concurrent.futures import ProcessPoolExecutor

import aiohttp
from loguru import logger as loguru
from lxml.html import fromstring


pool = ProcessPoolExecutor()
parser_sem = asyncio.Semaphore(pool._max_workers)
loguru.info(f"CPU workers: {pool._max_workers}")
host = "https://ru.wikipedia.org"
start_from = f"{host}/wiki/Заглавная_страница"
q_d = asyncio.Queue()
q_p = asyncio.Queue()
sem = asyncio.Semaphore(100)
downloaded_urls = set()


class O:
    downloaded = 0
    parsed = 0
    downloading = 0
    down_pending = 0
    waiting_for_download_q = 0


o = O()


async def log_printer(queue_d, queue_p):
    while True:
        loguru.debug(
            f"[PRINTER] to Download: {queue_d.qsize()}, to Parse: {queue_p.qsize()}"
            f" downloaded: {o.downloaded}, parsed: {o.parsed}"
            f" pending: {o.down_pending}, downloading: {o.downloading}"
            f" waiting Q: {o.waiting_for_download_q}"
            f" tasks: {len(asyncio.Task.all_tasks())}"
        )
        await asyncio.sleep(0.33)


def lxml_parse(html):
    try:
        tree = fromstring(html)
        urls = tree.xpath("//a/@href")
        try:
            title = tree.find(".//title").text
        except AttributeError:
            title = "<UNKNOWN>"

        new_urls = []
        for url in urls:
            if url.startswith("/") and not url.startswith("//"):
                new_urls.append(f"{host}{url}")
            elif url.startswith("http"):
                new_urls.append(url)

        return new_urls, title
    except Exception as e:
        loguru.error(f"Parse error: {e}")
        return [], "<ERROR>"


async def parse(html):
    loop = asyncio.get_event_loop()
    urls, title = await loop.run_in_executor(pool, lxml_parse, html)
    o.parsed += 1
    return urls, title


async def start_parse_task(content, queue_d):
    async with parser_sem:
        urls, title = await parse(content)
        # loguru.debug(f"[PARSER]: Parse done {title}")
        o.waiting_for_download_q += 1
        for url in urls:
            if url not in downloaded_urls:
                await queue_d.put(url)
        o.waiting_for_download_q -= 1
        # loguru.debug(f"[PARSER]: Add {len(urls)} to download queue")


async def parser(queue_d, queue_p):
    while True:
        content = await queue_p.get()
        asyncio.create_task(start_parse_task(content, queue_d))


async def downloader(queue_d, queue_p, session):
    while True:
        url = await queue_d.get()
        if url in downloaded_urls:
            continue

        o.down_pending += 1
        async with sem:
            o.down_pending -= 1
            o.downloading += 1
            try:
                async with session.get(url) as resp:
                    o.downloading -= 1
                    downloaded_urls.add(url)
                    # loguru.debug(f"[DOWNLOADER]: got response for {url}")
                    try:
                        text = await resp.text()
                        await queue_p.put(text)
                    except UnicodeDecodeError:
                        pass
                    o.downloaded += 1
            except Exception as e:
                loguru.error(f"Download error: {e}")


async def main():
    await q_d.put(start_from)
    async with aiohttp.ClientSession() as session:
        ds = []
        for i in range(100):
            ds.append(asyncio.create_task(downloader(q_d, q_p, session)))
        p = asyncio.create_task(parser(q_d, q_p))
        printer = asyncio.create_task(log_printer(q_d, q_p))
        await asyncio.gather(*ds, p, printer)


if __name__ == "__main__":
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

Написано более трёх лет назад

Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, большое спасибо, общая идея дошла.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, извиняюсь, я наверное вам окончательно надоел, но как лучше организовывать выгрузку данных? Создать еще одну очередь, которая будет писать в БД все спарсенные данные, или дожидаться окончания работы парсера и затем разом все данные записывать?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, не, ждать окончания будет накладно по ОЗУ. Я не думаю, что парсеры будут заняты больше, чем очередь на скачивание. По крайней мере, вот тот пример с парсингом википедии, что я скидывал. В нём парсеры почти всё время простаивают. Можно попробовать прям из них скидывать данные куда-то в БД. Но если из-за этого начнёт копиться очередь на парсинг — надо создать ещё одну asyncio.Queue и несколько воркеров, которые будут писать.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, запись в бд - io-bound же, или на фоне простаивания запись будет занимать мизер времени?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, вот надо попробовать. Потому что мои парсеры простаивали 90+% времени. Посмотри, если очередь на парсинг будет копиться — убери в отдельную очередь.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Roman Kitaev, кстати, вы в своем примере все-же использовали Queue вместо брокера типа Redis - почему? В каких вообще ситуациях есть смысл использовать брокер, а когда можно обойтись и стандартной очередью?
Как я вижу - брокер удобнее использовать с точки зрения масштабируемости? Типа на сервере поднять именно парсер, который будет ждать новые страницы и по необходимости отдавать ему эти страницы.

Написано более трёх лет назад
skrimafonolog @skrimafonolog

Ivan Yakushenko,
Единственный, кто в этой теме пытается помочь - это longclaps

Серьезно?
longclaps просто постебался над тобой.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- вчера
- 355 просмотров
1

ответ
Python

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- вчера
- 132 просмотра
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 170 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 111 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 72 просмотра
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 247 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 141 просмотр
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 171 просмотр
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 150 просмотров
2

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

В BS течет память, и это никто не чинит. Такшта только прибивать/перезапускать парсер.
longclaps, с чем это может быть связано? К слову, когда делал последний замер в 16:03 было свободно 40,3 ГБ ОЗУ, сейчас - 40,5 ГБ. Т.е. спустя чуть больше 3х часов начало попускать.
Ivan Yakushenko, я не знаю, просто это общее место.
longclaps, т.е. в теории soup.decompose() мог-бы помочь избавиться от утечки памяти? Сейчас перезапускать скрипт точно не буду, но в следующий раз попробую, может действительно беда в том, что не сразу из памяти удаляется объект soup. Хотя если это так в 100% случаев, то у меня сразу после запуска скрипта память закончилась-бы.
Ivan Yakushenko, я пас, я просто дал наводку.

Answer 1 · 2019-08-14 16:10:50

Roman K @deliro

Создавать пул на 1к процессов и удивляться, что память льётся? Ну вы, батенька, извращенец

Ответ написан более трёх лет назад

41 комментарий

Почему продолжает расти потребление ОЗУ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт