5 млн файлов JSON или DB?

Question

just_dev @just_dev

5 млн файлов JSON или DB?

Привет, комьюнити! Прошу ваших мнений по вопросу.

Дано: пишу API которое при обращении к метому /get_user_data/ должно возвращать JSON с данными по пользователю. Важно - данные не изменяются, то есть требуется только их прочитать и вернуть, никаких запросов на запись\удаление\изменение.

Всего около 5 млн записей.

Варианты:
1) хранить в DB вида id | json_string_data
2) залить на CDN 5 млн JSON и читать их, динамически меняя урл ../data/{id}.json

Вопрос: что будет быстрее\менее ресурсоёмко по нагрузке?

Уточнения:
1) данные не критичны с т.ч. безопасности если вдруг кто-то получит доступ ко всей папке.
2) на CDN отключен листинг фалов и чтобы найти папку вида ../g7G47yqhry&h/data/.. надо ооочень постараться.
3) почему не давать просто прямую ссылку на JSON и не пилить API - конечный пользователь не должен знать источник данных + авторизация, которая осуществляется на стороне того сервиса который будет обращаться к API, т.е. некое разграничение прав доступа всё же реализуется но не на стороне API.

Спасибо за ваши мнения и помощь!

Вопрос задан более года назад
349 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 3

11 комментариев

Сергей П @trapwalker

Добавлю, что для реализации такого на файлах достаточно чистого nginx. Если сервер на ssd, то всё будет быстро и без CDN

Написано более года назад
just_dev @just_dev Автор вопроса

Сергей П, спасибо, а можно в двух словах про реализацию на чистом nginx?

Написано более года назад
just_dev @just_dev Автор вопроса

Rsa97, спасибо за ответ.

Написано более года назад
VoidVolker @VoidVolker

just_dev https://docs.nginx.com/nginx/admin-guide/web-serve...

Написано более года назад
Олег @402d

Сергей П,@Rsa97,@VoidVolker
Тут только один момент. Сама файловая система сдохнуть может. Папку с милионом файлов даже команда ls открывает часами.
Раскладывать файлы нужно гдето по тысяче в подпапке.
Пусть имя json файла это UUID (0-9a-f)
16 в 4ой степени = 2в16 должно хватить с запасом
Так что по первым 3-4 буквам создаем дерево хранения

Написано более года назад
Rsa97 @Rsa97
Олег, Ну, это достаточно стандартно. Для UUID можно по первым символам

/00/0D/55/47/000D5547-xxxx-xxxx-xxxx-xxxxxxxxxxxx.json
Написано более года назад
Олег @402d

Rsa97, но вопрошавший скорее не в курсе проблемы большого числа файлов. самый Очевидный момент не озвучен был.

Написано более года назад
just_dev @just_dev Автор вопроса

Олег, совершенно верно, спасибо что указали на этот существеный аспект.

Написано более года назад
Сергей П @trapwalker

Олег, будут тормоза только при попытке вычитывания листинга файлов. При обращении по конкретному пути никаких проблем не должно быть. У него же индексная страница с листингом отключена, так и не проблема.
Я бы монтировал эти файлы отдельной файловой системой так-то. Ну чтобы бэкапить удобно было, деплоить...

Написано более года назад
Олег @402d

Сергей П, гимор редкий, но может оказаться фатальным. Срочно перенести на другой хост, а на серваке все штатные средства просто вешаются. Почти все консольные утилиты вычитывают сперва директорию.

Написано более года назад
Сергей П @trapwalker

Олег, ну так-то да. Обычно часть рандомного имени используют для распределения по дереву. Только у uid'а не всегда сильно меняются стартовые байты, лучше по хешу раскидать, или вырезать более энтропийную часть uid'а для формирования имен подкаталогов.

Написано более года назад

1 комментарий

4 комментария

Валентин Бируля @nykakdelishki

А редис тут не вариант?

Написано более года назад
mayton2019 @mayton2019

Валентин Бируля, редис скорее всего будет дороже по суммарной стоимости владения. Это инстанс. Занимает память. И его надо хостить и оплачивать. Тарификация идет даже в состоянии покоя. Задача неактивна а вы все равно платите.

Написано более года назад
fasvik @fasvik

mayton2019, редис можно запускать локально на сервере. Мне казалось что это самый популярный вариант запуска, разве нет?

Написано более года назад
mayton2019 @mayton2019

fasvik, у Редиса и у файловой системы типа S3/BlobStorage есть матрица фич. И мы не можем провести объективное сравнение этих двух вещей. Здесь нет лучше или хуже. Здесь есть число фич, слева и справа и некое экспертное решение на основе максимального соотвествия.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

Простой
Как выбрать из таблицы нужный раут REST API?
- 1 подписчик
- вчера
- 70 просмотров
2

ответа
SQL

+2 ещё

Простой
Как внести большое количество данных из Excel и pdf файла в БД?
- 1 подписчик
- 23 апр.
- 210 просмотров
3

ответа
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 275 просмотров
3

ответа
Python

+1 ещё

Простой
Как выбрать нужный ответ из JSON файла?
- 2 подписчика
- 23 апр.
- 250 просмотров
1

ответ
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 174 просмотра
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 117 просмотров
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 197 просмотров
1

ответ
Базы данных

Простой
Какие есть утилиты для автоматизированного проектирования БД?
- 3 подписчика
- 02 апр.
- 2695 просмотров
5

ответов
JavaScript

+1 ещё

Простой
Как указать путь в JS к json-файлу, чтобы он учитывался при сборке (parcel js)?
- 1 подписчик
- 29 мар.
- 75 просмотров
1

ответ
SQL

Простой
Ошибки в написании курсора sybase?
- 1 подписчик
- 18 мар.
- 69 просмотров
1

ответ
Показать ещё Загружается…

Data Engineer\ Разработчик БД SQL

Data World • Санкт-Петербург

До 230 000 ₽

Разработчик PHP, SQL фреймворк Symfony

Сервис электронной оценки • Москва

от 150 000 до 150 000 ₽

Инжинер-тестировщик

Bell Integrator • Москва

от 90 000 до 120 000 ₽

сделай обе реализации и проверь
про нагрузку ничего не сказано
быстрее вообще это всё в памяти держать, 5кк не так много, правда про размер файла не сказано

Answer 1 · 2023-11-22 11:03:21

Если по записям нет никакого поиска и всегда точно известно (вычислимо) имя файла, то база данных не нужна. Заливка на CDN тоже не имеет смысла, поскольку ваш API будет на одном сервере, а не разбросан по миру. Проще всего в этом случае хранить все файлы локально на API-сервере.

Answer 2 · 2023-11-22 16:29:49

Ничего не сказано насчёт соответствия закону и регуляциям. Особенно, когда речь о пользовательских данных.

данные не изменяются

а через год-два так же?
Если "обойтись" файлами и CDN, то все данные пользователей могут утечь в интернет и быть проиндексированы поисковиками.
Если будет реализовано через файлы, то есть высокий шанс того, что файлы будут скачивать в обход систем авторизации. Так что на свой страх и риск.

5 млн файлов

это не тот объем, из-за которого стоит переживать насчёт производительности.
Если хочется просто выложить БД с пользователями, тогда достаточно файло-обменника, залив в архив.
Для
конкурентного чтения подходит и SQLite.

Answer 3 · 2023-11-22 12:29:01

mayton2019 @mayton2019

Bigdata Engineer

Файловая система - самый дешевый способ хранения инфы. Если других требований нет - почему бы и нет?

Ответ написан более года назад

4 комментария

5 млн файлов JSON или DB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт