Есть ли аналог модуля shelve, который работает как список, а не как словарь?

Question

Валерий Рябошапко @valerium

Изобретая велосипед

Python

Есть ли аналог модуля shelve, который работает как список, а не как словарь?

Приветствую.

У меня есть список с очень большим количеством элементов. Настолько большим, что в оперативной памяти он не помещается. В таких условиях скорость работы уже не так критична, лишь бы по OOM не вывалиаться, так что можно всё это добро на диск скинуть, и уже там обрабатывать.

Входящий в стандартную библиотеку shelve очень хорош, но проблема в том, что он работает как словарь (то есть не хранит порядок), и не принимает int в качестве ключа (то есть сымитировать список будет не так просто).

Вопрос в том, есть ли готовые решения, которые могут мне помочь? Я думаю насчёт обёртки вокруг sqlite, но пока в голову только совсем уж костыльные решения приходят.

Кстати, под «как список» я имею ввиду итерируемость, а так же методы append() и pop().

Вопрос задан более трёх лет назад
536 просмотров

8 комментариев

Подписаться 2 Оценить 8 комментариев

sim3x @sim3x

>с очень большим количеством элементов
тут все свои, можешь не стесняться показать свои циферки

Написано более трёх лет назад
Валерий Рябошапко @valerium Автор вопроса

sim3x: к сожалению, точное количество уже не помню, но 6 гигов (всё, что есть на ноуте) вижирало, потом срабатывал OOM. Собственно, из-за этого и задался вопросом работы с диском.

Написано более трёх лет назад
sim3x @sim3x

Валерий Рябошапко: ты спрашиваешь архитектурное решение, но не рассказываешь об приложении - так тебе много не насоветуешь

Написано более трёх лет назад
Валерий Рябошапко @valerium Автор вопроса

sim3x: да нечего особо рассказывать, имхо, уже изложенного достаточно, чтобы понять проблему и прикинуть, знаешь ли решение. Пишу обёртку вокруг HTTP API для получения данных о биржевых сделках. Получает CSV, из него создаёт список с объектами. Если вытаскивать за большой срок (несколько лет) и по популярному инструменту (типа акций Apple или Google) получается очень много этих самых объектов. Логики пока нет, пишу чисто модуль обёртку. И хочется, чтобы метод, получающий данные, возвращал нечто, крякающее как список, чтобы с ним было удобно работать.

Написано более трёх лет назад
sim3x @sim3x

Валерий Рябошапко: а почему не использовал numpy сразу если для анализа все предназначалось?

Написано более трёх лет назад
Валерий Рябошапко @valerium Автор вопроса

sim3x: можете ткнуть в конкретную часть numpy, которая поможет решить мою задачу?

Написано более трёх лет назад
sim3x @sim3x

Валерий Рябошапко:
парсим кусками данные
сразу сохраняем на диск (csv sqlite не принципиально)
когда нужно анализировать загружаем в docs.scipy.org/doc/numpy-1.10.1/user/basics.rec.html

Написано более трёх лет назад
abcd0x00 @abcd0x00

Валерий Рябошапко: Да элементарно это сделать. Сделай свой класс, который внешне имеет все признаки списка, но хранит данные на диске (буферизует чтение и запись).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 3

Комментировать

4 комментария

Валерий Рябошапко @valerium Автор вопроса

Я уже сам пилю. https://github.com/valericus/sqlist
Спасибо за несколько интересных идей.

Написано более трёх лет назад
Валерий Рябошапко @valerium Автор вопроса

А у Вас есть планы заниматься этим дальше, или это было написано в приступе вдохновения?

Написано более трёх лет назад
Roman K @deliro

Валерий Рябошапко: Если будет спрос - будет предложение. Предлагаю не плодить репозитории и слиться в один, в таком случае. Кстати, sqlist - думал про точно такое же имя :) Но потом решил, что оно не очень подходит, потому что это только sqlite, а не любой sql. Но оно мне нравится больше. Короче.

Написано более трёх лет назад
Roman K @deliro

Валерий Рябошапко: Проблемы, кстати, те же, что и у тебя: len(lst) на больших значениях очень тормозит (а учитывая то, что ты даже слайсы им резолвишь - тормозят и слайсы). Ещё большая проблема - это OFFSET. Но сегодня ночью мне пришла хорошая идея, как использовать индексы по ID вместо OFFSET'а. Если пользователю не нужно удаление данных вообще (ни del, ни pop), в этом случае можно получать выборку по ID. Например lst[50] - 'select * from tbl where id = 51'. С отрицательными индексами тоже придумал :)

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 493 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 281 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 507 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

>с очень большим количеством элементов
тут все свои, можешь не стесняться показать свои циферки
sim3x: к сожалению, точное количество уже не помню, но 6 гигов (всё, что есть на ноуте) вижирало, потом срабатывал OOM. Собственно, из-за этого и задался вопросом работы с диском.
Валерий Рябошапко: ты спрашиваешь архитектурное решение, но не рассказываешь об приложении - так тебе много не насоветуешь
sim3x: да нечего особо рассказывать, имхо, уже изложенного достаточно, чтобы понять проблему и прикинуть, знаешь ли решение. Пишу обёртку вокруг HTTP API для получения данных о биржевых сделках. Получает CSV, из него создаёт список с объектами. Если вытаскивать за большой срок (несколько лет) и по популярному инструменту (типа акций Apple или Google) получается очень много этих самых объектов. Логики пока нет, пишу чисто модуль обёртку. И хочется, чтобы метод, получающий данные, возвращал нечто, крякающее как список, чтобы с ним было удобно работать.
Валерий Рябошапко: а почему не использовал numpy сразу если для анализа все предназначалось?
sim3x: можете ткнуть в конкретную часть numpy, которая поможет решить мою задачу?
Валерий Рябошапко:
парсим кусками данные
сразу сохраняем на диск (csv sqlite не принципиально)
когда нужно анализировать загружаем в docs.scipy.org/doc/numpy-1.10.1/user/basics.rec.html
Валерий Рябошапко: Да элементарно это сделать. Сделай свой класс, который внешне имеет все признаки списка, но хранит данные на диске (буферизует чтение и запись).

Answer 1 · 2016-01-09 05:48:15

Тут все сильно зависит от того, что именно вы храните в этом списке, поэтому приведу несколько вариантов.

1. numpy позволяет создавать типизированные массивы и хранит их в памяти, но в весьма компактном виде (объем порой в разы меньше, чем у обычного python'овского списка) и представляет очень богатые возможности по обработке данных.

2. pandas, используя numpy, умеет создавать структурированные массивы (датафреймы), похожие на таблицы баз данных, и предоставляет развитый функционал по выборке и обработке этих данных.

3. pytables позволяет сохранить numpy-массивы или pandas-датафреймы на диск в виде файлов в формате HDF5, обеспечивая быстрый доступ к данным и опять же удобный функционал по поиску/выборке данных.
Скорее всего на ваших объемах данных pandas+HDF5 будет в разы/десятки раз быстрее любой СУБД.

4. bcolz позволяет сжать данные, а также хранить их не только в памяти, но и на диске.
При этом операции с данными производится очень быстро, иногда даже быстрее чем с несжатым списками.

Вообще, спископодобные данные гораздо быстрее обрабатывать с помощью векторных операций в numpy и pandas. Но если вам все-таки нужны именно циклы, то также рекомендую обратить внимание на numba, с помощью которой можно в десятки-сотни раз ускорить python'овские циклы.

Answer 2 · 2016-01-18 00:33:42

Roman K @deliro

Специально для тебя:
https://github.com/deliro/sqlitelist

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2016-01-18 05:51:48

Валерий Рябошапко @valerium Автор вопроса

Изобретая велосипед

https://pypi.python.org/pypi/sqlist/

Ответ написан более трёх лет назад

Комментировать

Есть ли аналог модуля shelve, который работает как список, а не как словарь?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт