Как компрессировать упорядоченный массив уникальных натуральных чисел огр. диапазона?

Question

Сергей Соколов @sergiks

♬♬

Как компрессировать упорядоченный массив уникальных натуральных чисел огр. диапазона?

Веб приложение сравнивает попарно наборы целых положительных чисел.

Каждый набор не содержит внутри себя повторов, любое из чисел не больше 210 млн. (28 бит).

В наборе их может быть от 1 до 5 млн.

Сравнивая наборы A и B надо получить наборы «уникальные для A», «уникальные для B» и «общее ядро». В частности, просто отвечать на вопросы «Есть ли в наборе S число N?»

Реализация, увы, на php и пока на shared hosting. Наскоро реализовал, нагрузив хостинговый MySQL: под каждый сет временная таблица с единственной колонкой-индексом. В большинстве случае таблицы превышают размер, который помещается в engine=Memory, и на дисковых таблицах это совсем небыстро, но работает.

Как эффективно держать такой набор, чтобы сравнение двух сетов выполнялось быстро, занимя минимальный footprint по памяти?

Пришло в голову записать каждый набор битовой маской длиной в 2^28 бит (32Mb). Из 210 млн бит всего 5 млн единиц, остальные 0: их можно записывать числом нулей подряд, например. Очень похоже на велосипед. Подскажите всем, кроме меня, известный алгоритм, эффективный для компрессии бинарных данных в частном случае «много нулей подряд»?

Про Huffman coding читал, похоже, он будет неэффективен для поиска каждого из 5 млн. чисел второго сета внутри первого.

Вопрос задан более трёх лет назад
3583 просмотра

2 комментария

Подписаться 2 Оценить 2 комментария

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

нет 19Мб. Тем более, в PHP памяти потребуется раза в два больше. Сейчас так «в лоб» и храню — в БД, индексированная колонка 32-битных целых. Там же сравниваю. Уникальность частного случая в отсутствии повторов, непринципиальности порядка и известном диапазоне. Из этих трёх частностей хочется выжать ацки эффективную компрессию, скорость и малую требуемую память.

Написано более трёх лет назад
MikhailEdoshin @MikhailEdoshin

Чтобы сжать последовательность нулевых битов нужна метка, что дальше идут не данные, а число, а затем — это число. Допустим, эти числа у вас будут фиксированного размера в 32 бита — вам тогда потребуются те же самые пять миллионов 32-битных чисел для обозначения сжатых участков. Можно, наверное, как-то извратиться и использовать числа переменной длины, но это еще усложнит код, а он и так уже нарисовывается непростой. Отсортированный же массив можно хранить в простом файле и считывать его по частям (правда, заполнить такой массив будет потруднее). Кстати, раз числа не 32-битные, можно использовать верхние биты для служебной информации — например, создать один массив, а в верхних битах отмечать, к каким наборам это число относится.

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

от фикс. длины «слов» точно надо отойти: только поток битов. Нашёл описание Golomb кодирования, похоже — то, что мне нужно.

Написано более трёх лет назад
MikhailEdoshin @MikhailEdoshin

Да, Golomb, пожалуй, подойдет, судя по описанию, должен довольно эффективно сжимать.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 12 часов назад
- 88 просмотров
2

ответа
PHP

Простой
После переезда на новый хостинг перестал работать сайт?
- 1 подписчик
- 13 авг.
- 316 просмотров
4

ответа
PHP

Простой
Чем собирать статистику запросов от клиентов на сервере?
- 1 подписчик
- 13 авг.
- 246 просмотров
6

ответов
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 181 просмотр
3

ответа
PHP

Простой
Автовайрить контейнером самого себя — это «законно»?
- 1 подписчик
- 11 авг.
- 447 просмотров
1

ответ
PHP

+1 ещё

Средний
Как работать с подключениями к БД в долгоживущих приложениях с EntityManager в RoadRunner?
- 2 подписчика
- 07 авг.
- 167 просмотров
1

ответ
PHP

Сложный
Как напечатать чек с маркировкой через атол?
- 4 подписчика
- 01 авг.
- 232 просмотра
0

ответов
PHP

+1 ещё

Простой
Как в выборке sql обратиться к предыдущей записи?
- 2 подписчика
- 30 июл.
- 298 просмотров
6

ответов
PHP

+1 ещё

Простой
Как улучшить код?
- 1 подписчик
- 29 июл.
- 490 просмотров
1

ответ
PHP

+1 ещё

Средний
Как обработать 2 одновременных запроса со стороннего сервера?
- 1 подписчик
- 28 июл.
- 1522 просмотра
1

ответ
Показать ещё Загружается…

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

Backend developer (PHP)

Wanted • Казань

До 150 000 ₽

PHP-разработчик

Wanted

До 300 000 ₽

А каков размер, в среднем, «общего ядра» по сравнению с размером наборов?
95% в одном случае (измеряется изменение множества за небольшое время), и от 0 до 99% в другом (сравниваются два разных множества).

Answer 1 · 2013-02-28 08:21:31

Вообще это run-length encoding. Находить пересечение и разность можно без распаковки, просматривая параллельно оба набора, а вот проверку произвольного числа можно будет сделать тоже только просмотром, не очень эффективно.

Answer 2 · 2013-03-27 05:34:05

Для ускорения сравнения в случае с предположительно малым общим ядром можно из каждого набора сделать Bloom Filter (для которого можно балансировать точность/потребление памяти). Тогда придется проверять вхождение только для тех элементов, для которых проверка по фильтру вернет «in set».

Answer 3 · 2013-02-28 10:10:41

Учитывая, что чисел мало, проще хранить их в отсортированном массиве — 5 млн 32-битовых чисел займут 19 МБ, пересечение и разность находятся так же параллельным просмотром за O(N + M), проверка вхождения элемента двоичным поиском — O(log N).

Как компрессировать упорядоченный массив уникальных натуральных чисел огр. диапазона?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт