Способ хранения для 2 млн. записей

Question

mariofag @mariofag

Способ хранения для 2 млн. записей

Задача такова: нужно хранить около 2 млн. различных записей вида «доменное имя; 3-х байтовое число», необходима возможность осуществлять операцию «получить N случайных (но различных) записей» при N ≤ 2 млн.

Желательно, чтобы к хранилищу был удобный доступ из PHP и Python. Хранилище должно потреблять по возможности меньше оперативной памяти и работать быстро.

Что бы вы предложили использовать в таком случае?

Вопрос задан более трёх лет назад
3211 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 8

2 комментария

Комментировать

2 комментария

Комментировать

2 комментария

Roder @Roder

Зачем каждый раз? Что-нибуть вроде memcached.org/ и тогда один раз при первом вызове. И источник уже совсем не критичен.

Написано более трёх лет назад
Kindman @Kindman
Массив (в РНР) гораздо больше (в 30 раз) памяти кушает, чем одна упакованная бинарная строка такой же емкости. Не хватит и 128 мегабайт памяти, чтобы создать array() с 2 миллионами целых чисел.
<?php $n=2000000; $m0=memory_get_usage(); for ($i=0; $i<$n; $i++) $a[]=$i; echo memory_get_usage()-$m0;
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- 10 июл.
- 216 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 106 просмотров
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 231 просмотр
3

ответа
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 302 просмотра
3

ответа
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 340 просмотров
5

ответов
Хранение данных

Простой
Как открыть образ диска VHD?
- 1 подписчик
- 29 апр.
- 151 просмотр
1

ответ
Резервное копирование

+1 ещё

Простой
Как лучше подключать СХД к Proxmox Backup?
- 3 подписчика
- 22 апр.
- 361 просмотр
2

ответа
Компьютеры

+2 ещё

Простой
Что делать если не очищается место на диске C ssd?
- 1 подписчик
- 19 апр.
- 347 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 288 просмотров
3

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 331 просмотр
3

ответа
Показать ещё Загружается…

Answer 1 · 2011-06-25 11:54:49

NiGHt_LEshiY @NiGHt_LEshiY

BerkeleyDB

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2011-06-25 11:20:56

Т.е. я так понимаю, оно пополняться не будет? Если нет — то можно сделать свой велосипед на основе flat файлов с фиксированными длинами полей. Будет быстрая выборка обычными seek. По необходимости [s]присыпать солью[/s] разбить на группы по N записей и хранить в отдельных файлах, именованных согласно (id / N), таким образом файловая система будет частично решать вопросы случайного поиска. Если еще дальше развивать идею, можно попробовать еще разбить по папкам (как например хранит кеш squid).

А если же это дело будет регулярно изменяться, то лучше SQL ничего не придумать. 2 Млн записей — не так уж много, тем более что не нужно по ключам выбирать.

Answer 3 · 2011-06-25 19:26:22

Хранилище должно потреблять по возможности меньше оперативной памяти и работать быстро.

Если «быстро», значит все данные должны находиться в оперативной памяти. Сколько ее потребуется? Примем, что средняя длина доменного имени 30 символов (уверен, это с большим запасом). Если их хранить просто как текст, нужно 30 байт. Еще 3 байта на число, 1 байт на длину строки, итого 33 байта на запись. Для двух миллионов записей потребуется около 63 Мб. Столько оперативной памяти придется выделить для быстрой работы. Значит мы можем минимизировать только оверхед по памяти, обусловленный выбором того или иного «движка» для нашего хранилища. Отсюда вывод: лучшее хранилище — простой массив, загружаемый из простого текстового файла. Генерируем последовательность псевдослучайных чисел и делаем выборку из массива по индексам.

Если память действительно критична, то можно подумать о более компактном представлении доменных имен (словарь TLD, точки и т.п.)

Answer 4 · 2011-06-25 11:35:35

На самом деле поставленная задача распадается на несколько более мелких подзадач:
1) хранение 2 миллионов доменных имен.
2) генерация неповторяющейся последовательности из 2 миллионов псевдослучайных чисел.
Нужно так же еще одно уточнение:
«доменные имена» в самом хранилище должны быть уникальными, или могут повторяться?
Другими словами, могут ли одному доменному имени соответствовать два и более трех-байтовых числа одновременно?
и, допускаются ли «пустые» значения для доменного имени?
Ответы на эти вопросы очень сильно влияют на размер памяти.

Answer 5 · 2011-06-25 11:56:50

Баланс скорость/пространство.
К первому совету ещё можно добавить, что в каждом отдельном файле записи хранятся компактно, с переменнымми длинами полей.

Answer 6 · 2011-06-25 15:56:33

берите любую SQL-базу и не мучайтесь.
Вам нужно поизобретать велосипед или решить задачу?
2М коротких записей это ерунда, у меня в одной таблице 6М с 30 колонками — работает на ура.

Конечно, сейчас вы можете легко реализовать это на файлах. Но подумайте чуть вперед — наверняка нужно будет еще что-то добавить, делать какие-то дополнительные возможности, банально добавить дату регистрации или еще что-то. И что? Все переписывать? Конвертировать все файлы и пр.? Зачем это?
Все это уже сделали за вас разработчики БД.

Answer 7 · 2011-06-29 18:09:56

Не знаю насчет других БД, но в MySQL мне известен только один способ получения случайной выборки:

SELECT * FROM table ORDER BY rand() LIMIT N;

Это _очень_ медленно работает, т.к. сканируется вся таблица («Using temporary; Using filesort» со всеми вытекающими).

Answer 8 · 2011-06-28 11:52:45

К сожалению «простой» массив, целиком загружаемый из файла при каждом запуске скрипта — это и есть самое-самое медленное решение из всех возможных, поскольку очень много времени будет тратиться как раз на разбор содержимого файла, и на создание динамической структуры массива.