Как хранить миллионы мелких файлов максимально компактно и производительно?

Question

andyN @andyN

Как хранить миллионы мелких файлов максимально компактно и производительно?

Есть порядка 20 миллионов мелких файлов (10-100 кб в среднем, хотя бывают "пики" порядка 500 кб, но они редки). Они не перезаписываются, создали-уничтожили все. Будем считать, что это все read-only. Надежность и масшабируемость не нужна. Первоначально планировали просто разбить всю структуру на подкаталоги и так все хранить на сервере с SSD, отдавая при необходимости файл (нагрузки тоже небольшие). Но оказалось, что overhead получается слишком большим: файлы расползаются на блоки файловой системы. В идеале было бы здорово хранить все в одном файле, с какой-то легкой компрессией, в памяти - индексы (адреса) нужных "файлов" в этом едином блоке, и уже обращаться к ним при необходимости. Техническая реализация понятна и не очень сложна, но не хотелось бы переизобретать велосипед, а использовать какое-то готовое простое решение, пусть и не точно соответствующее описанному выше, но позволяющее хранить все эти файлы с минимальным overhead'ом.

Вопрос задан более трёх лет назад
3775 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Файловые системы

+1 ещё

Простой
Файловая система для Linux с поддержкой длинных имен файлов?
- 7 подписчиков
- 23 мая
- 4417 просмотров
3

ответа
Linux

+3 ещё

Простой
Как исправить файловую систему ext4 на LVM?
- 4 подписчика
- 10 апр.
- 1560 просмотров
1

ответ
Linux

+2 ещё

Простой
Чем монтировать архивы в linux?
- 1 подписчик
- 16 февр.
- 225 просмотров
0

ответов
Debian

+2 ещё

Средний
Как устранить ошибку ввода/вывода у файлов .jpg в каталоге Debian 12?
- 1 подписчик
- 03 янв.
- 160 просмотров
2

ответа
DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 91 просмотр
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 124 просмотра
2

ответа
Файловые системы

Простой
Инструмент для создания любого типа файла?
- 1 подписчик
- более года назад
- 118 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 268 просмотров
1

ответ
Windows

+1 ещё

Средний
Как полностью заблокировать доступ к файлу?
- 1 подписчик
- более года назад
- 239 просмотров
3

ответа
Системное администрирование

+3 ещё

Средний
Как определить самые используемые папки в сети на DFS?
- 1 подписчик
- более года назад
- 157 просмотров
1

ответ
Показать ещё Загружается…

Golang Engineer в команду Отелло

2GIS

До 550 000 ₽

Аналитик данных

Mains Lab • Москва

До 188 000 ₽

Менеджер проектов

Phystech.Genesis

До 200 000 ₽

Answer 1 · 2013-12-07 06:58:28

Минимальный оверхед на файл вот тут, насколько мне известно:
code.google.com/p/weed-fs
НЕТ поддержки POSIX (HTTP-only)
Там же в описании проекта есть несколько альтернатив, с плюсами и минусами.

Answer 2 · 2013-12-07 09:46:52

попробуйте squashfs. Минус - это то что нужно будет периодически пересоздавать её для обновления данных, т.к. эта fs - Read-Only. Плюс - компрессия.

Попробуйте хранить в БД данные. Например у MySQL есть тип таблиц Archive - осуществляется поиск по 1 primary key, в свою очередь данные также сжимаются, и также таблица read-only, записи могут добавляться, но не изменяться.

Вы можете организовать несколько томов\таблиц, и обновлять их по мере необходимости, перегоняя данные из одной таблицы\тома в другой.

Как хранить миллионы мелких файлов максимально компактно и производительно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт