Как лучше хранить большой массив чисел на диске с очень быстрым поиском?

Question

Андрей Павленко @Akdmeh

PHP, Yii2, Music

Базы данных

Как лучше хранить большой массив чисел на диске с очень быстрым поиском?

Представим, что есть массив типа:
{"1": [1,5,11,15,22,34...], "5": [55,44,22,67]}
То есть, много ключей (1, 5, 1005...) внутри одного ключа около 20 миллионов чисел, а в общем количество чисел может доходить до 800 миллионов.
Нужно постоянное хранение этой информации (то есть, вариант исключительно с оперативной памятью отпадает) и при этом организовать быстрый поиск вхождения определенного числа в эти огромные массивы (как я понимаю, должна помогать индексация). То есть, я должен иметь возможность быстро найти, входит ли чисто 505050 в массив с 20 миллионов чисел.
Какое решение посоветуете использовать?
Сейчас используется таблица MySQL, но она довольно медленная и уже показывает невысокую производительность. Redis работает быстрее, но когда число доходит до даже до 40 миллионов, начинает занимать 3.5 ГБ оперативки, а мы ведь даже не добрались до 100 миллионов...
Как я понимаю, наверняка существуют какие-то более быстрые и специфические базы данных, которые подходили бы мне для этой довольно узконаправленной задачи, но сеанс гугления на английском мне особо не помог.
Да, конечно же, это как-то нужно заставить работать с PHP (поэтому если есть какая-то библиотека для работы с подобным хранилищем - это будет огромным плюсом) :-D
Посоветуйте, в какую сторону мне искать решение? Буду благодарен за название хранилищ, которые помогут мне решить эту задачу. В приоритете, на самом деле - скорость поиска, так как если записей будет немного, то будет происходить много операций поиска. На задачу можно выделить около 10 ГБ оперативной памяти (но как я сказал, по моим подсчетам, Redis с этим не справляется).

Еще раз. Представим на примере Redis. Есть ключ big_array1, в нем хранится 20 миллионов цифр в формате SETS.
Самый частый запрос, который мы делаем:
sismember big_array1 1234567
То есть, узнаем, хранится ли в big_array1 число 1234567.
Вот эта функция для Redis работает отлично, но забирает слишком много оперативной памяти.

Вопрос задан более трёх лет назад
253 просмотра

3 комментария

Подписаться 1 Простой 3 комментария

sim3x @sim3x

Опишите нормально массив и его характеристики
Укажите свои стандартные запросы

Написано более трёх лет назад
Дмитрий Шицков @Zarom

Приведите текущую информацию по MySQL. Как сейчас хранятся данные в таблицах, какие использованы индексы и типы таблиц. Реляционные БД вполне неплохо должны справляться с такими простыми запросами. Возможно нужно просто поэкспериментировать с памятью, выделенной на кеш индексов, попробовать разные движки и СУБД.

Написано более трёх лет назад
Андрей Павленко @Akdmeh Автор вопроса

На самом деле, структура простейшая:
Таблица sent_keys, две колонки: id_message id_key
Стоит индекс KEY(id_message, id_key)
Запрос:
SELECT EXISTS(SELECT * FROM sent_keys WHERE id_message=100 AND id_key=765000)
Все работает (хотя и весит немало). Но хочется более быстрой скорости. Специфика алгоритма такова, что нужно делать запрос на каждый ключ.
Я понимаю, что видимо придется как-то делать цикличную проверку, но это чертовски усложняет алгоритм просчетов.
Поэтому решил поискать, существует ли более быстрое решение именно в базе данных. Если ничего более быстрого найти не удастся - придется как-то переосмысливать систему отбора ключей.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Merion Academy

Базы данных с нуля

2 месяца

Далее
Stepik

Тестирование ПО (без проверки)

2 недели

Далее
OTUS

Базы данных

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 82 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 255 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 190 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 200 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 254 просмотра
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 327 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 448 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 223 просмотра
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 97 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend developer

Creative Code

До 190 000 ₽

Опишите нормально массив и его характеристики
Укажите свои стандартные запросы
Приведите текущую информацию по MySQL. Как сейчас хранятся данные в таблицах, какие использованы индексы и типы таблиц. Реляционные БД вполне неплохо должны справляться с такими простыми запросами. Возможно нужно просто поэкспериментировать с памятью, выделенной на кеш индексов, попробовать разные движки и СУБД.
На самом деле, структура простейшая:
Таблица sent_keys, две колонки: id_message id_key
Стоит индекс KEY(id_message, id_key)
Запрос:
SELECT EXISTS(SELECT * FROM sent_keys WHERE id_message=100 AND id_key=765000)
Все работает (хотя и весит немало). Но хочется более быстрой скорости. Специфика алгоритма такова, что нужно делать запрос на каждый ключ.
Я понимаю, что видимо придется как-то делать цикличную проверку, но это чертовски усложняет алгоритм просчетов.
Поэтому решил поискать, существует ли более быстрое решение именно в базе данных. Если ничего более быстрого найти не удастся - придется как-то переосмысливать систему отбора ключей.

Answer 1 · 2019-02-11 22:53:49

Если допустимы ложноположительные ошибки (например, с шансом в 0,1%), то можно юзать фильтр Блума. Так ты 800млн значений впихнешь в 1,34гб. Чем меньше ошибка - тем больше нужно места

Answer 2 · 2019-02-12 05:57:01

Средствами реляционной БД и если не критична скорость вставки, то можно попробовать реорганизовать таблицу со строками
{"1": [1,5,11,15,22,34...], "5": [55,44,22,67]}
к виду {1:["1"], 5:["1"], ...., 22:["1", "5"]}, т.е. теперь первым стоит значение для проверки, потом массив ключей- поменять местами ключи со значениями.
Делаете 1 индекс.
Жрать ресурсов будем меньше+ скорость поиска, усложняется доступ к бывшим ключам вхождения("1", "2",...).
Можно попробовать создать 2 таблицы: первая просто число, которое нужно искать(скорость поиска О(1)+высота дерева в индексе), а вторую с ключами вхождения и внешний ключ к первой.

Как лучше хранить большой массив чисел на диске с очень быстрым поиском?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт