Есть ли способ сжать данные?

Question

firstmixon @firstmixon

Python

Есть ли способ сжать данные?

День добрый!
Есть структура данных(~ 10 полей целочисленных), часть из которых реально занимает int8, а часть только int, так как данных чуть больше чем дофига(1 000 000, записей), данные отъедают много памяти, есть ли вменяемые способы оптимизации, или только вариант упаковки пары int в одно поле int8?

Вопрос задан 8 часов назад
119 просмотров

8 комментариев

Подписаться 2 Простой 8 комментариев

Everything_is_bad @Everything_is_bad

А давай ты всё таки начнешь в своих вопросах больше предоставлять информации, как получаешь данные, так тебе их надо обработать, как сейчас с ними работаешь, пример кода где много памяти.

Написано 7 часов назад
Vindicar @Vindicar

Сжать-то можно, но вот работать с ними потом как?
Какие операции ты планируешь выполнять, будешь ли ты хранить эти данные всегда в памяти, или в отдельном хранилище, откуда их можно подгружать постепенно, и т.п.

Написано 7 часов назад
firstmixon @firstmixon Автор вопроса

Vindicar, Сейчас поставил эксперимент, загнал поля по типам в массивы, но при запуске жрет как не всебя, 8гигов отожрало на загрузке таблицы из 500к записей из 10 столбцов.

Написано 6 часов назад
firstmixon @firstmixon Автор вопроса

firstmixon, Крайне извиняюсь, похоже были проблемы из-за пучарма, он на таких объемах притормаживает при отладке.

Написано 6 часов назад
Adamos @Adamos

По скудости вопроса можно предположить, что ТС считает БД неоптимальным решением, а свой колхоз - оптимальным. Без реальных на то причин.

Написано 6 часов назад
Everything_is_bad @Everything_is_bad

похоже были проблемы из-за пучарма, он на таких объемах притормаживает при отладке.
бгг, очередной эпикфейл от ТС ;)

Написано 6 часов назад
Vindicar @Vindicar

firstmixon, в какие массивы? numpy?
В нумпи есть отображаемые в память массивы (memmap). Это файл, который сам подчитывается в память по мере надобности.
А вообще, повторяю вопрос: как именно выглядят данные, какие операции с ними выполняются?

Написано 5 часов назад
Михаил Ливач @Mausglov

у вас миллион наборов по 10 полей? Я не питонист, но Дипсик подсказывает, что Python на такой объём затратит 250-280 Мб памяти. Не так и много по современным меркам

Написано 3 часа назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему функция ImportAuthorizationRequest не авторизует клиента, хотя не вызывает ошибку?
- 1 подписчик
- вчера
- 32 просмотра
1

ответ
Python

Сложный
Как запустить отдельный скрипт в субпроцессах, получив интерфейс типа concurrent.futures.Executor?
- 2 подписчика
- вчера
- 84 просмотра
0

ответов
Python

Средний
Как формируется запрос на стороне сайта?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Python

+1 ещё

Простой
Как написать бота для Bitrix24 на Python?
- 1 подписчик
- 26 авг.
- 183 просмотра
1

ответ
Python

Простой
Syntaxerror invaild syntax Что я делаю не так?
- 1 подписчик
- 26 авг.
- 85 просмотров
1

ответ
Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- 24 авг.
- 461 просмотр
1

ответ
Python

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- 23 авг.
- 186 просмотров
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 2 подписчика
- 20 авг.
- 224 просмотра
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 165 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

А давай ты всё таки начнешь в своих вопросах больше предоставлять информации, как получаешь данные, так тебе их надо обработать, как сейчас с ними работаешь, пример кода где много памяти.
Сжать-то можно, но вот работать с ними потом как?
Какие операции ты планируешь выполнять, будешь ли ты хранить эти данные всегда в памяти, или в отдельном хранилище, откуда их можно подгружать постепенно, и т.п.
Vindicar, Сейчас поставил эксперимент, загнал поля по типам в массивы, но при запуске жрет как не всебя, 8гигов отожрало на загрузке таблицы из 500к записей из 10 столбцов.
firstmixon, Крайне извиняюсь, похоже были проблемы из-за пучарма, он на таких объемах притормаживает при отладке.
По скудости вопроса можно предположить, что ТС считает БД неоптимальным решением, а свой колхоз - оптимальным. Без реальных на то причин.
похоже были проблемы из-за пучарма, он на таких объемах притормаживает при отладке.
бгг, очередной эпикфейл от ТС ;)
firstmixon, в какие массивы? numpy?
В нумпи есть отображаемые в память массивы (memmap). Это файл, который сам подчитывается в память по мере надобности.
А вообще, повторяю вопрос: как именно выглядят данные, какие операции с ними выполняются?
у вас миллион наборов по 10 полей? Я не питонист, но Дипсик подсказывает, что Python на такой объём затратит 250-280 Мб памяти. Не так и много по современным меркам

Answer 1 · 2025-08-28 20:50:42

1. хранение без сжатия, самое простое для реализации - плоские массивы на каждый элемент, типа например структура (int a, int8 b) то нужно создать два массива int[] a и int8[] b (это некрасиво ломает оптимизации кеша работы с ram если данные по каждому объекту нужны целиком сразу, ну и конечно, никто не заставляет так делать со всеми данными, но у вас python вам и так грустно)
Еще вопрос к python, на сколько я помню для работы с массивами данных там numpy подходит (имеется в виду эффективные операции с данными а не сам доступ)

Сразу скажу, с упаковкой данных на python работать будет отвратительно неудобно и медленно! Лучше сразу переходить на c/c++ и подключать его как модуль расширения python.

что бы пропустить что написано ниже - вот пример библиотеки
https://github.com/ghilesmeddour/gorilla-time-seri...
2. если этого недостаточно, самый простой механизм сжатия целочисленных данных в массиве, особенно если данные - показания во времени, не сильно меняющиеся (т.е. соседние данные отличаются на значение, занимающее меньше int, то хранить в массиве не сами данные, а разницу от предыдущего (или от базы для блока, базы хранить в отдельном массиве), например последовательсность 12322 12320 12325 12319 можно хранить как:

первое число 12322 и последовательность -2,5,-6.

в этом случае случайный доступ не получится, для получения следующего числа нужно последовательно обработать весь массив, но можно кешировать значение базы для каждого N.
ну или такой:

база 12322 в виде одного числа, и массив 0,-2,3,-3... числа в этом массиве могут влезать не просто в int а в int8

Если зафиксировать интервал между смены базы (например каждый 1024 числа), то случайный доступ не будет проблемой.

Для значений, разница с базой которых выходит за возможности ее хранения (например для int8 это вне -128..127) можно выбрать какое-нибудь значение, например -128 как сигнал что разница слишком большая, и само число хранить в отдельном map(индекс,значение)... если таких выходов за границу будет относительно мало, подход будет эффективным

В обоих примерах эффективная запись новых значений будет затруднена (но не невозможна, просто медленнее)

p.s. ключевые слова для гугла - delta encoding, frame-of-reference, time series compression, escape value/exception coding, Apache Parquet, ClickHouse, Gorilla Time Series (честно я сначала описал технику а потом попросил ИИ найти где это используется, ее не проверял но техника очень простая и популярная, да та же квантизация llm рядом стоит)

upd. Дальнейшее расширение подхода - динамическое изменение количества байт или даже бит на хранение разницы с базой, например мы можем хранить в массиве 1байтовые, 2-байтовые, 3-байтовые разницы и 4-байтовое само число, но вынуждены где то хранить по 2 бита на указание, какое именно сейчас используется, 00 - для int8, 01 - для int16, 10 - для int24 (не советую хранить эти биты в самих смещениях, хотя для 2-байтовых это может быть оправдано, но 4-байтового может тогда не хватить для хранения самого значения)... например отдельный массив для битовых пар, и несколько динамических массивов соответственно для int8, int 16, int24 и int32, но для понимания, по какому адресу какое значение хранится, придется анализировать массив битовых пар, например в нем указано хранение 0,0,1,1,2,0,3 что говорит что 1,2 и 6 числа будут храниться в массиве int8, а 3и 4-ое в массиве int16,.. т.е. такой подход будет эффективно работать для поседовательного чтения но плохо для случайного.
p.s. variable byte encoding, dynamic encoding, bit-packing, Parquet, ORC, protobuf varints

как же классно стало с современным ИИ, это гугл на стероидах, он и утверждения проверит, и погуглит алгоритмы и даже предложит куски кода по желанию (само собой придумает половину несуществующих, всегда об этом нужно помнить и перепроверять!)
https://en.wikipedia.org/wiki/Delta_encoding
https://www.vldb.org/pvldb/vol8/p1816-teller.pdf

Есть ли способ сжать данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт