Как избежать ошибки MemoryError?

Question

Андрей Иванов @TomRiddle

Я здесь, потому что ничего не нагуглил XD

Python

Как избежать ошибки MemoryError?

Есть программа, которая принимает список xlsx файлов и прогоняет их построчно по очереди, достает нужные сведения и сопоставляет их между собой (ищет совпадения в файлах и так далее..)
Выглядит примерно так:

key_info = {}
for file in tuple_of_files:
    wb = openpyxl.load_workbook(file, read_only=True)
    first_sheet = wb.sheetnames[0]
    for row in wb[first_sheet].rows:
        #тут фрагмент кода чтобы достать из строки нужный объект, который мы сохраняем в переменную var_info
        if var_info not in key_info:
            key_info[var_info] = {'count' : 1, 'reg' : None, 'oper' : None, 'time_use' : set(),  'imeis' : set()}
            #далее фрагмент кода по вычислению и заполнению подсловаря для этого объекта
        if var_info in key_info:
            key_info[var_info]['count'] += 1
            key_info[var_info]['time_use'].add(some_info)
            key_info[var_info]['imeis'].add(some_other_info)

Потом используя словарь с ключевыми значениями key_info создаю xlsx файл и записываю в него результаты анализа.
Программа работает, пока общее число строк в передаваемых ей файлах не превышает примерно 1млн, и в целом делает свою работу. Но когда пытаешься передать файлы с большим объемом (общее число строк около 5млн), то возникает ошибка memoryError.
Я понимаю, что это из-за того, что словарь key_info просто уже не может вмещать информацию, однако разбить его на несколько других файлов или обнулять через определенное число строк, никак не получится - теряется весь функционал проверки..

Как можно избежать этой ошибки? Зависит ли она от мощности используемого ПК?

Вопрос задан более трёх лет назад
131 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

2 комментария

Андрей Иванов @TomRiddle Автор вопроса
Удаленный сервер точно отпадает)

А как реализовать это через бд??
Основы создание баз данных и работы с ними через sqlite3 я знаю, можно внедрять новые сведения
cursor.execute ('INSERT INTO dbase VALUES(?,?,?,?,?,?);', values)
, но как поступить если ключевое значение уже есть в базе данных и нужно обновить информацию в других столбцах соответствующих этому значению?
Написано более трёх лет назад
devdb @devdb

noremorse_ru,
if var_info in key_info:
заменить на else

Вообще убрать - это лишняя проверка, ведь после строки инициализации оно всегда будет в словаре в любом случае.

Андрей Иванов, изучи основы SQL или найди библиотеку, которая без SQL будет писать/искать/обновлять записи БД.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- вчера
- 124 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- вчера
- 87 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 84 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 230 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 268 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 170 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 270 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

- Перейти на 64-битную операционную систему и увеличить память
- Уменьшить размер данных (например, вместо длинных строк их хэши, например MD5 или SHA1, сократить названия полей, инициализировать set()-поля как None если бывает что в них нет значений и т.д.)
- Выгружать все лишние данные в базу данных (например, значения key_info[var_info]), и обновлять их ТАМ по мере надобности. Кстати, базы данных могут быть in-memory, т.е. не на диске и весьма быстро работающие.

Answer 1 · 2020-10-14 17:00:28

if var_info in key_info:
заменить на else
Множества set() тебе зачем? Они сами по себе тяжелые, возьми список
Ну и самое главное, зачем ты хранишь все в памяти? Пиши результаты в бд или файл. Или ты можешь отправить их на удаленный сервер асинхронно, который запишет в бд, всё зависит на сколько ты далеко хочешь зайти))

Как избежать ошибки MemoryError?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт