Как инвертировать словарь без использования дополнительной памяти?

Question

Andrey Dugin @adugin

Как инвертировать словарь без использования дополнительной памяти?

Пишу критичное по памяти и производительности приложение. Для некоторых повторящихся вычислений задекорировал функции с использованием техники memoization. Крупные неоднократно повторяющиеся объекты храню в таком кеше:

from collections import defaultdict
from itertools import count
cache = defaultdict(count().next)

Таким образом, каждый добавлемый в кеш объект получает уникальный последовательный индекс, т.е. в словаре уникальны не только ключи, но и значения. После окончания вычислений требуется восстановить объекты из кеша по индексу, для чего нужно инвертировать словарь. Он занимает сотни мегабайт, поэтому я ищу способ такого инвертирования cache -> xcache, которое не удваивало бы объём данных в памяти. Я хочу удалять элемент из одного словаря и сразу добавлять в другой, чтобы данные плавно "перетекли". Другими словами, в памяти не должны одновременно находиться два словаря с полным набором ключей и значений в каждом. Основная возникающая проблема - итерация по изменяющемуся словарю. Как это правильно реализовать?

Вопрос задан более трёх лет назад
922 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Python-разработчик + ИИ

10 месяцев

Далее

Решения вопроса 2

11 комментариев

Andrey Dugin @adugin Автор вопроса, куратор тега Python

Хороший вопрос. Я просто смотрю объём используемой памяти в диспетчере. На самом деле, возможно, мне стоит попробовать не использовать словарь для кэширования, а просто функцию intern(), т.к. основной расход памяти - на длинные строки. Погуглю на эту тему...

Написано более трёх лет назад

Артём Клименко @aklim007

собственно вот небольшой тест:

Line #    Mem usage    Increment   Line Contents
================================================
    15     11.8 MiB      0.0 MiB   @profile()
    16                             def test():
    17     11.9 MiB      0.0 MiB       kol = 100000
    18     11.9 MiB      0.0 MiB       cache = dict()
    19    234.0 MiB    222.1 MiB       for x in xrange(kol):
    20    234.0 MiB      0.0 MiB           cache[get_random_hash(length=1000)] = count().next
    21    240.7 MiB      6.8 MiB       xcache = {value: key for key, value in cache.iteritems()}

собственно лишнее выделение памяти всего 6,8 мб, после инвертирования словаря.

Написано более трёх лет назад

Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: Что-то меня сильно смущает конструкция count().next - не ли здесь ошибки? Каждый раз создаётся новый объект count и в кэш кладётся ссылка на его метод next, который никогда не вызывается. Что в итоге лежит в xcache?

Написано более трёх лет назад
Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: Вне цикла следует создать cnt = count(), а в кэш класть cnt.next()

Написано более трёх лет назад

Артём Клименко @aklim007

И правда, это я дал, маху, там каждый раз в значение словаря складывался новый экземпляр обёртки на функцией next класса count, именно в данном коде можно вообще на "x" заменить, но на итоговые результаты это никак не повлияет:

Line #    Mem usage    Increment   Line Contents
================================================
    15     11.8 MiB      0.0 MiB   @profile()
    16                             def test():
    17     11.8 MiB      0.0 MiB       kol = 100000
    18     11.9 MiB      0.0 MiB       cache = dict()
    19     11.9 MiB      0.0 MiB       _count = count()
    20    224.4 MiB    212.6 MiB       for x in xrange(kol):
    21    224.4 MiB      0.0 MiB           cache[get_random_hash(length=1000)] = next(_count)
    22    231.4 MiB      6.9 MiB       xcache = {value: key for key, value in cache.iteritems()}

Написано более трёх лет назад

Andrey Dugin @adugin Автор вопроса, куратор тега Python

aklim007: Да, вот теперь вроде всё понятно. Спасибо за наглядный эксперимент! Действительно, чего-то я маху дал. Надо спать по ночам :)

Написано более трёх лет назад
Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: P.S. Заменить на 'x' было бы неправильно, т.к. в этом случае инвертированный словарь будет состоять только из одного элемента.

Написано более трёх лет назад
Артём Клименко @aklim007

Андрей Дугин: нет же:
In[23]: [x for x in xrange(5)]
Out[22]: [0, 1, 2, 3, 4]
In[24]: {x: x for x in xrange(5)}
Out[23]: {0: 0, 1: 1, 2: 2, 3: 3, 4: 4}
In[25]: {x: id(x) for x in xrange(5)}
Out[24]: {0: 29253088L, 1: 29253064L, 2: 29253040L, 3: 29253016L, 4: 29252992L}
In[26]: {x: id(x) for x in xrange(5)}
Out[25]: {0: 29253088L, 1: 29253064L, 2: 29253040L, 3: 29253016L, 4: 29252992L}

Написано более трёх лет назад
Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: Я имел в виду статическое значение для всех value в cache :)

Написано более трёх лет назад
Артём Клименко @aklim007

Андрей Дугин: хех, а я имел в виду именно это x "for x in xrange(kol):", значит немного не допоняли друг друга =)

Написано более трёх лет назад
Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: В любом случае, ещё раз спасибо :) Может, взглянете на этот вопрос - Как организовать обработку поля namedtuple при первом вызове? ? Он по той же теме. Я пытаюсь закешировать строки и не выполнять лишние действия... К сожалению, в ООП пока лишь поверхностно, в основном ФП занимаюсь.

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 208 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 213 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 73 просмотра
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 290 просмотров
3

ответа
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 104 просмотра
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 98 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 117 просмотров
1

ответ
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 185 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 464 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 995 просмотров
4

ответа
Показать ещё Загружается…

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Answer 1 · 2015-03-14 17:42:24

> Он занимает сотни мегабайт
вы имеете в виду что данные хранящиеся в словаре занимают сотни мегабайт, или сам объект словаря занимает сотни мегабайт?

Поскольку от того, что вы инвертируете словарь, копий ключей и значений в памяти не появится, увлечение памяти будет только на саму структуру нового словаря.

Answer 2 · 2015-03-14 15:19:47

Пока додумался до такого метода:

xcache = dict()
while cache:
    	key, val = cache.iteritems().next()
    	xcache[cache.pop(key)] = key

Такой способ в 3 раза величивает время исполнения скрипта (с 60 до 180 секунд на моём ноутбуке) по сравнению с традиционным методом инвертирования "в лоб". Есть ли способ лучше?

Update #1: Тоже тормозит.

xcache = dict()
cpop = cache.pop
while cache:
    key = cache.iterkeys().next()
    xcache[cpop(key)] = key
del cache

Update #2: Вот так скорость вернулась на значение 60 секунд. Что ещё?

xcache = dict()
cpop = cache.popitem
while cache:
    key, val = cpop()
    xcache[val] = key
del cache

Как инвертировать словарь без использования дополнительной памяти?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт