Как организовать в Linux с 10 000 000 000 (миллиардами) inodes, быстрый доступ к ним и их обработку (Линукс замена бд)?

Question

ruboss @ruboss

Как организовать в Linux с 10 000 000 000 (миллиардами) inodes, быстрый доступ к ним и их обработку (Линукс замена бд)?

Нужен поиск и вставка миллиардов записей. Пробовал elasticsearch - после 50 000 000 записей тяжко идет вставка. Думал еще попробовать Cassandra. Но задумался, зачем для элементарных действий брать такие машины - огромные и неповоротливые. Да, в них все отлично продумано и классно масштабируемо. Проблема в этом всем - универсальность, как и во всех массовых продуктах. Как обычно, приходится педалить

Есть данные вида:

Хэш          Инфо
aDs3g9     2:1,2,4;11:1  (где 2, 11 - ключи, а 1,2,4 и 1 - поля к этим ключам, остальное - разделители)
3trhn        2:9,7;3:3,4

На данный момент длина хэша 1-6 символов взятых из (макс инт 32) - дает 4 000 000 000 вариаций
Попробуем организовать все в виде ФС на Linux.

Задача1: быстрая вставка, наподобие upsert в ES
Зная умные слова типа шардирование и партицирование на ум продит следующее:
1) Берем хэш aDs3g9, и создаем папки с каждыми 2мя символами и бросаем в последнюю файл нашего хэша, выходит так - aD/s3/g9/aDs3g9
Приходит запрос - положить в aDs3g9 "2:1,2" - тут появляется вопрос : "Стоит ли создать все возможные папки до вставок или создавать их по ходу вставок?". Допустим папки у нас есть, дальше вставляем ключ 2 и данные 1,2.
Приходит следующий запрос - положить в aDs3g9 "2:4" - видим в папках уже есть файл, считываем его, докидываем в нужное место "4" и получаем "2:1,2,4"
Далее - положить в aDs3g9 "11:1" - получаем "2:1,2,4;11:1"
Что мы имеем - жертвуя время на добавления информации в файл без дублей при индексировании мы экономим место и время при выборке. Если не хотим жертвовать временем при вставке, то выйдет так "2:1,2;2:4;11:1"

Задача2: быстрая выборка всех ключей и значений, пусть даже с дублями ключей
Приходит - дай мне все с aDs3g9, 3trhn (тут может прийти список до 1000 хэшей) - возвращаем "2:1,2,4;11:1 2:9,7;3:3,4"
Вопрос в параллелизме - linux может параллельно доставать файлы? 1000 хэшей разбиваем на 10 потоков и каждый из них работает пока не достанет все данные из своих файлов.

Какой тип ФС выбрать чтобы можно было держать до 10 миллиардов inodes и какой обьем памяти для этого может понадобиться? Понятно, что можно разбить на сервера, каждый из которых будет хранить свою область хэшей, но вот допустим это все будет на 1 машине.

Разных символов в хэше = 26 + 26 + 10 = 62 (26 маленьких, 26 больших и 10 цифр)
Напомню, то хэш берется с макс инт 32, поэтому папки дают 4 и файлы дают 4 миллиарда
Итого 8 000 000 000 файлов на данный момент.

Какие мысли по такому решению? И на чем лучше писать высио это для максимальной скорости c/c++ ?

Вопрос задан более трёх лет назад
1314 просмотров

2 комментария

Подписаться 8 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

7 месяцев

Далее
Skillfactory

Профессия «Белый» хакер

13 месяцев

Далее

Решения вопроса 1

9 комментариев

ruboss @ruboss Автор вопроса

можно ссылку, где почитать про индексы в файлах?

Написано более трёх лет назад
lega @lega

Да просто, при ключе (инт 32) = 5, пишем по адресу 100х5=500, при ключе = 15, пишем в 100х15=1500 - как массив объектов.
Это самый просто способ, но при этом много "ячеек" могут быть не используемыми - "вхолостую" занимаемое место.
Зато это позволит не создавать отдельный hash/btree индекс который съест много RAM, (например avl-tree на C занимает ~50байт на элемент, т.е. 1млрд ключей требует ~50Гб памяти, хотя есть более экономные алгоритмы, в вашем случае больше подходит хеш таблица, т.к. сортировка ключей не нужна).

Далее можно применять разные хитрости по экономии места, например по принципу хеш таблицы.
Ещё если входные ключи в течении какого-то времени не далеко друг от друга, то можно все данные поделить на чанки и запаковать (сжиматься будет хорошо, в 10-30 раз).

Если у вас в основном все документы размером в районе ~20байт, а только некоторые достигают 1кб, то можно установить размер каждой ячейки = 24б (тогда файл будет ~100Гб), а для тех что не влазят уже в отдельные файлы.

В любом случае любые доработки для экономии места требуют усложнение алгоритмов, что-бы лучше подобрать вариант - нужно знать состав данных и тип их использования.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

lega: Спасибо! Я так понял, что размер данных для одного хэша должен быть фиксированным? Т.е если будет исключение в виде 1 кб (а не 100 байт), то придется все ячейки делать по максимально-возможному размеру

Написано более трёх лет назад
lega @lega

> размер данных для одного хэша должен быть фиксированным?

Да

> если будет исключение в виде 1 кб (а не 100 байт), то придется все ячейки делать по максимально-возможному размеру

Нет, исключения можно обрабатывать отдельно.

> Если у вас в основном все документы размером в районе ~20байт, а только некоторые достигают 1кб, то можно установить размер каждой ячейки = 24б (тогда файл будет ~100Гб), а для тех что не влазят уже в отдельные файлы

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

lega: отличное решение, весьма благодарен вам! В моей ситуации не выйдет так=( количество этих данных постоянно растет...

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

lega: нашел еще клевую штуку - "Kyoto hashDB". Судя по тестам, гораздо быстрей чем leveldb. Не знаете?

Написано более трёх лет назад
lega @lega

ruboss: судя по названию там хеш индекс, т.е. ключи будут не сортированными (в отличие от leveldb), хотя оно вам и не надо. Если бы все хранилось в RAM, то хеш индекс был бы быстрее. А т.к. данные (а может и часть индекса) сбрасывается на диск, то тут сильно влияет конкретная реализация, поэтому лучший способ - протестировать на ваших данных, и сравнить.

Вот ещё rocksdb от фейсбука, на основе leveldb, работает быстрее на железе с ssd.

Написано более трёх лет назад
lega @lega

Можно ещё от сюда что-нибудь повыбивать: nosql-database.org

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

lega: остановлюсь пока на лвлдб всетаки =) если будут ссд, может на роксдб. Спасибо большое)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

ruboss @ruboss Автор вопроса

Спасибо, размер каждого файла будет от 10 байт до 1 килобайта, как это повлияет на скорость? Плохо с железом дружу(

Написано более трёх лет назад
Adamos @Adamos

Размер каждого файла будет от 10 байт + запись в таблице размещения + записи об атрибутах файла (имя, время создания или доступа, владелец, права...) + то же самое для папок.
Имхо, вы непозволительно идеализируете хранение информации на жестком диске...

Написано более трёх лет назад
Adamos @Adamos

Ну, и при работе с файлами, разбросанными по всему дереву, вы получите очень аккуратное случайное чтение и запись - то есть дисковый кэш будет работать вхолостую, и если вы собираетесь смотреть скорость диска по тестам, смотрите минимальную.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Какие есть простенькие скрипты «HTTP over Email», чтоб поставить у себя на серваке?
- 1 подписчик
- 14 нояб.
- 227 просмотров
1

ответ
Linux

+3 ещё

Простой
Fedora 6 как починить загрузчик grub?
- 1 подписчик
- 13 нояб.
- 157 просмотров
0

ответов
Linux

+1 ещё

Средний
Как получить publicKey используя xray x25519?
- 2 подписчика
- 10 нояб.
- 246 просмотров
0

ответов
Linux

+1 ещё

Простой
Как установить «Госплагин» в Яндекс-браузер на Debian 12?
- 1 подписчик
- 10 нояб.
- 453 просмотра
1

ответ
Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб.
- 139 просмотров
0

ответов
Linux

+4 ещё

Простой
Не видно курсор в KDE, что делать?
- 1 подписчик
- 07 нояб.
- 184 просмотра
2

ответа
Linux

Средний
Почему после подключения из консоли к openvpn перестаёт работать SOCKS прокси 3proxy на той же виртуальной машине VirtualBox?
- 1 подписчик
- 05 нояб.
- 116 просмотров
1

ответ
Linux

Простой
Что за ошибка « ERROR: Cannot open TUN/TAP dev /dev/net/tun: No such file or directory (errno=2)» при подключении к OpenVPN?
- 1 подписчик
- 05 нояб.
- 141 просмотр
1

ответ
Linux

Простой
Как в Deepin OS запустить исполняемый файл ЕИС как приложение Ubuntu?
- 1 подписчик
- 04 нояб.
- 176 просмотров
1

ответ
Linux

+1 ещё

Простой
Как в mc подключится к выносному дисководу?
- 2 подписчика
- 04 нояб.
- 260 просмотров
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Сергей: из чисел. Инт 32 - а само число я получаю из векторов, в общем долгая история =)

Answer 1 · 2015-11-07 02:51:22

Классическая фс для этого не подходит, если у вас размер данных на "хеш" небольшой, например до 100 байт, то просто сделайте большой файл на 400гб и пишите данные по индексу, при этом хеш не нужен. С нормальным ssd можно будет писать до 1М записей в сек. обычным скриптом. При этом 75% места будут "простаивать". Если хотите сэкономить места, тогда нужно использовать индекс, например заюзать leveldb или т.п.

Answer 2 · 2015-11-06 21:56:51

Вы также должны учесть, что информация на жестком хранится минимальными порциями, например по 16 кб или по 4кб (не помню точно).

Получается вы будете иметь значительных оверхед на жестком.

Как организовать в Linux с 10 000 000 000 (миллиардами) inodes, быстрый доступ к ним и их обработку (Линукс замена бд)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт