Python, postgress, pandas — куда утекает память?

Question

Илья Т. @Insaned

Python

Python, postgress, pandas — куда утекает память?

Надо вычитать много данных из БД (десятки гигабайт) и сохранить их в файлики. Пытаюсь делать это вот в таком цикле, при этом на каждой итерации вычитывается относительно небольшое количество данных (не больше 5 гб), но размер памяти выделяемый процессу всё-равно постоянно увеличивается и в конце-концов система уходит в свап и всё останавливается.

import config
import pandas as pd
import os
import gc

for station in config.STATIONS_LIST:
    sql_query = f"select * from table where  where station = '{station}'"
    df = pd.read_sql(sql_query, con=connection_pg)
    filename = f'data_{station}'
    filename_with_path = os.path.join(config.OUTPUT_PATH, filename)
    compression_options = dict(method='zip', archive_name=f'{filename}.csv')
    df.to_csv(f'{filename_with_path}.zip', compression=compression_options, index=False)
    del df
    gc.collect()

Вопрос задан более трёх лет назад
275 просмотров

2 комментария

Подписаться 3 Простой 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

5 комментариев

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Память может и не возвращается операционной системе, но должна переиспользоваться самим интерпретатором. Ставлю на то, что утечка в коде Pandas, вряд ли его авторы предполагали такое использование.

Написано более трёх лет назад
Александр @Arlekcangp

Сергей Горностаев,
вряд ли его авторы предполагали такое использование.

Чего такого необычного в этом коде ? Тем более что в вопросе на SO код ещё проще. Подождём, может автор вопроса что-нибудь напишет, нашёл он утечку или нет.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Александр, pandas - это библиотека для аналитики. Загрузка данных из БД и сохранение результатов в CSV - это побочные функции, которые проектировались под однократный вызов.

Написано более трёх лет назад
Александр @Arlekcangp

Сергей Горностаев, Ну не знаю... С моей точки зрения аналитика может легко включать в себя доступ к нескольким БД и при этом поддерживать обновления данных периодически... Я всё же надеюсь, что и авторы pandas тоже такой точки зрения придерживаются.

Написано более трёх лет назад
Илья Т. @Insaned Автор вопроса

Друзья, большое Вам всем спасибо за проявленное участие. Я не могу на 100% сказать, какое решение правильное/лучшее, но кажется что gc.collect(), который есть в моём примере, но по факту был добавлен в одном из последних вариантов - решает большинство проблем, но не все.
Кажется что сжатие в zip в некоторых случаях эти проблемы создает. Я наблюдал ситуацию, когда в STATIONS_LIST был один элемент, на клиент выбиралось порядка 5 Гб данных при этом память процесса росла медленно и пропорционально. Затем молниеносно выбирались все имеющиеся 32 Гб (в системе больше, но порядка 32 было доступно) и, система уходила в свап, затем ОС убивала мой скрипт.
В силу того что все описанные процессы очень медленные, а задача одноразовая - я решил ее, разбив исходный список на меньшие части (на ручнике). Если мне придется делать то-же самое повторно, то я буду делать как сказал Александр :
офлоудить работу другому процессу
.
ps Pandas я тут использовал по разным причинам, в первую очередь просто в силу привычки, но КМК pandas в этой ситуации должен использовать меньше памяти т.к. у него под капотом честные массивы, а не "вот это всё питоновское" (я не проверял эту гипотезу).

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 200 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 242 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 158 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 131 просмотр
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 257 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 145 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 147 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 264 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 432 просмотра
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Похоже что или pandas или коннектор кэширует твои запросы к БД. Ищи как отключить кэширование у pandas/коннектора.
А зачем вам вообще pandas? Что мешает просто читать кортежи из курсора и писать их в файл?

Answer 1 · 2022-02-14 00:26:54

Я не специалист по пайтону, но присматриваюсь и ваш код меня заинтересовал. Немного погуглив я нашел такой похожий вопрос на SO ( https://stackoverflow.com/questions/39100971/how-d... ), но c более простым кодом:

import pandas
df = pandas.read_csv('large_txt_file.txt')
del df

Уже этого достаточно, что бы память не возвращалась в ОС. Автор вопроса подозревал Pandas, но как пояснили в ответах, это особенность самого пайтона:

Reducing memory usage in Python is difficult, because Python does not actually release memory back to the operating system. If you delete objects, then the memory is available to new Python objects, but not free()'d back to the system (see this question).

Т е если вы смотрите количество используемой процессом памяти, то оно будет только увеличиваться. Первое, что я бы попробовал, это поменять ваш код так:

for station in config.STATIONS_LIST:
    sql_query = f"select * from table where  where station = '{station}'"
    df = pd.read_sql(sql_query, con=connection_pg)
    filename = f'data_{station}'
    filename_with_path = os.path.join(config.OUTPUT_PATH, filename)
    compression_options = dict(method='zip', archive_name=f'{filename}.csv')
    df.to_csv(f'{filename_with_path}.zip', compression=compression_options, index=False)
    <b>df = ' '</b>
    gc.collect()

Т е не удалять переменную, а переприсвоить. Некоторые говорят, что это помогает (если честно, мне в такое с трудом верится, но я не знаю пайтона) Среди других рекомендаций: загружать данные меньшими порциями и офлоудить работу другому процессу, который затем убивается и память освобождается ОС. (на мой взгляд способ хороший, хоть и не слишком архитектурно-правильный, но гарантировано добавит стабильности и застрахует даже от будущих утечек, если они появятся либо в вашем коде либо в новых версиях библиотек)
Другой вопрос, почему это увеличение не останавливается. Если это всё дело происходит на linux то я бы попробовал ограничить пайтону память (первое что нагуглилось: https://www.geeksforgeeks.org/python-how-to-put-li...) и посмотрел будет ли при этом интерпретатор умирать по причине недостатка памяти. Если будет, то на SO рекомендовали такое средство: https://mg.pov.lt/objgraph/ Этим можно посмотреть что именно потребляет память.

Python, postgress, pandas — куда утекает память?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт