5 млн файлов JSON или DB?

Question

just_dev @just_dev

5 млн файлов JSON или DB?

Привет, комьюнити! Прошу ваших мнений по вопросу.

Дано: пишу API которое при обращении к метому /get_user_data/ должно возвращать JSON с данными по пользователю. Важно - данные не изменяются, то есть требуется только их прочитать и вернуть, никаких запросов на запись\удаление\изменение.

Всего около 5 млн записей.

Варианты:
1) хранить в DB вида id | json_string_data
2) залить на CDN 5 млн JSON и читать их, динамически меняя урл ../data/{id}.json

Вопрос: что будет быстрее\менее ресурсоёмко по нагрузке?

Уточнения:
1) данные не критичны с т.ч. безопасности если вдруг кто-то получит доступ ко всей папке.
2) на CDN отключен листинг фалов и чтобы найти папку вида ../g7G47yqhry&h/data/.. надо ооочень постараться.
3) почему не давать просто прямую ссылку на JSON и не пилить API - конечный пользователь не должен знать источник данных + авторизация, которая осуществляется на стороне того сервиса который будет обращаться к API, т.е. некое разграничение прав доступа всё же реализуется но не на стороне API.

Спасибо за ваши мнения и помощь!

Вопрос задан более двух лет назад
360 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

5 недель

Далее
Яндекс Практикум

SQL для разработки

4 месяца

Далее
Академия Eduson

SQL-разработчик: тариф Базовый

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

11 комментариев

Сергей П @trapwalker

Добавлю, что для реализации такого на файлах достаточно чистого nginx. Если сервер на ssd, то всё будет быстро и без CDN

Написано более двух лет назад
just_dev @just_dev Автор вопроса

Сергей П, спасибо, а можно в двух словах про реализацию на чистом nginx?

Написано более двух лет назад
just_dev @just_dev Автор вопроса

Rsa97, спасибо за ответ.

Написано более двух лет назад
VoidVolker @VoidVolker

just_dev https://docs.nginx.com/nginx/admin-guide/web-serve...

Написано более двух лет назад
Олег @402d

Сергей П,@Rsa97,@VoidVolker
Тут только один момент. Сама файловая система сдохнуть может. Папку с милионом файлов даже команда ls открывает часами.
Раскладывать файлы нужно гдето по тысяче в подпапке.
Пусть имя json файла это UUID (0-9a-f)
16 в 4ой степени = 2в16 должно хватить с запасом
Так что по первым 3-4 буквам создаем дерево хранения

Написано более двух лет назад
Rsa97 @Rsa97
Олег, Ну, это достаточно стандартно. Для UUID можно по первым символам

/00/0D/55/47/000D5547-xxxx-xxxx-xxxx-xxxxxxxxxxxx.json
Написано более двух лет назад
Олег @402d

Rsa97, но вопрошавший скорее не в курсе проблемы большого числа файлов. самый Очевидный момент не озвучен был.

Написано более двух лет назад
just_dev @just_dev Автор вопроса

Олег, совершенно верно, спасибо что указали на этот существеный аспект.

Написано более двух лет назад
Сергей П @trapwalker

Олег, будут тормоза только при попытке вычитывания листинга файлов. При обращении по конкретному пути никаких проблем не должно быть. У него же индексная страница с листингом отключена, так и не проблема.
Я бы монтировал эти файлы отдельной файловой системой так-то. Ну чтобы бэкапить удобно было, деплоить...

Написано более двух лет назад
Олег @402d

Сергей П, гимор редкий, но может оказаться фатальным. Срочно перенести на другой хост, а на серваке все штатные средства просто вешаются. Почти все консольные утилиты вычитывают сперва директорию.

Написано более двух лет назад
Сергей П @trapwalker

Олег, ну так-то да. Обычно часть рандомного имени используют для распределения по дереву. Только у uid'а не всегда сильно меняются стартовые байты, лучше по хешу раскидать, или вырезать более энтропийную часть uid'а для формирования имен подкаталогов.

Написано более двух лет назад

1 комментарий

4 комментария

Валентин Бируля @nykakdelishki

А редис тут не вариант?

Написано более двух лет назад
mayton2019 @mayton2019

Валентин Бируля, редис скорее всего будет дороже по суммарной стоимости владения. Это инстанс. Занимает память. И его надо хостить и оплачивать. Тарификация идет даже в состоянии покоя. Задача неактивна а вы все равно платите.

Написано более двух лет назад
fasvik @fasvik

mayton2019, редис можно запускать локально на сервере. Мне казалось что это самый популярный вариант запуска, разве нет?

Написано более двух лет назад
mayton2019 @mayton2019

fasvik, у Редиса и у файловой системы типа S3/BlobStorage есть матрица фич. И мы не можем провести объективное сравнение этих двух вещей. Здесь нет лучше или хуже. Здесь есть число фич, слева и справа и некое экспертное решение на основе максимального соотвествия.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 14 часов назад
- 54 просмотра
1

ответ
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек.
- 227 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 230 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 86 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 264 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 198 просмотров
2

ответа
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 197 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 239 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 256 просмотров
4

ответа
Показать ещё Загружается…

Database Administrator / DBA

Playerok

от 300 000 ₽

Разработчик баз данных

Greenway Global • Новосибирск

До 250 000 ₽

DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

сделай обе реализации и проверь
про нагрузку ничего не сказано
быстрее вообще это всё в памяти держать, 5кк не так много, правда про размер файла не сказано

Answer 1 · 2023-11-22 11:03:21

Если по записям нет никакого поиска и всегда точно известно (вычислимо) имя файла, то база данных не нужна. Заливка на CDN тоже не имеет смысла, поскольку ваш API будет на одном сервере, а не разбросан по миру. Проще всего в этом случае хранить все файлы локально на API-сервере.

Answer 2 · 2023-11-22 16:29:49

Ничего не сказано насчёт соответствия закону и регуляциям. Особенно, когда речь о пользовательских данных.

данные не изменяются

а через год-два так же?
Если "обойтись" файлами и CDN, то все данные пользователей могут утечь в интернет и быть проиндексированы поисковиками.
Если будет реализовано через файлы, то есть высокий шанс того, что файлы будут скачивать в обход систем авторизации. Так что на свой страх и риск.

5 млн файлов

это не тот объем, из-за которого стоит переживать насчёт производительности.
Если хочется просто выложить БД с пользователями, тогда достаточно файло-обменника, залив в архив.
Для
конкурентного чтения подходит и SQLite.

Answer 3 · 2023-11-22 12:29:01

mayton2019 @mayton2019

Bigdata Engineer

Файловая система - самый дешевый способ хранения инфы. Если других требований нет - почему бы и нет?

Ответ написан более двух лет назад

4 комментария

5 млн файлов JSON или DB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт