Какую БД выбрать для маленького файлового сервиса?

Question

viktorov_aa @viktorov_aa

Какую БД выбрать для маленького файлового сервиса?

Я хочу сделать приложение на python(на Fastapi), которое будет работать примерно так:
Пользователи запускают задание, которое выгружает тяжелый отчет в файловую систему на сервере, после чего получают уведомление на почту с уникальной ссылкой. При переходе по ссылке автоматически скачивается файл.

Мне необходимо хранить информацию:
1. Связь ссылки с файлом в файловой системе
2. Историю скачиваний

Возможно, иногда мне надо будет чистить старые файлы(и соотвественно ссылки) массово(например старше 30 или 7 дней).
Ожидаю до выгрузки нескольких десятков тысяч файлов в месяц.

Посоветуйте, какую БД стоит использовать для таких целей? И почему именно ее?

Вопрос задан более трёх лет назад
476 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

10 комментариев

Ivan Yakushenko @kshnkvn

sqlite синхронный

Написано более трёх лет назад
d'Ivan @2ord

Ivan Yakushenko, а что другие СУБД асинхронны?

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Роман Мирр, нет, но у них есть сервер, который обрабатывает одновременные подключения, у sqlite нет сервера, это просто файл, который блокируется на момент обращения к нему.

Написано более трёх лет назад
d'Ivan @2ord

Ivan Yakushenko, с другой стороны, запросы могут быть обработаны очень быстро.
И если использовать её при обработке очереди отчетов, то она отлично подойдет.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Роман Мирр, человек использует fastapi, а ты предлагаешь использовать ему очереди?

с другой стороны, запросы могут быть обработаны очень быстро.

это полностью нивелируется необходимостью блокировать таблицу при каждом запросе.

Написано более трёх лет назад
d'Ivan @2ord

Ivan Yakushenko, тяжелые отчеты вряд ли могут быть обработаны быстро, так что fastapi здесь вряд ли изменит картину.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Роман Мирр, а, я чет упустил тот момент, что файлы будут загружаться на сервер, думал через этот-же апи. Ну тогда да, плевать по большому счету. Хотя в любом случае при любой повышенной нагрузке вероятнее всего именно sqlite будет узким горлом.

Написано более трёх лет назад
d'Ivan @2ord

Ivan Yakushenko, для очереди вряд ли. Сервис может не дорасти до такой нагрузки.

Написано более трёх лет назад
iddqda @iddqda

да какая там нагрузка?
каждый юзер запускает джоб
джоб регистрируется в редис и ставится в очередь
запускаешь всего одного RQ воркера, который берет задачи из редиса,
делает всю работу и монопольно обращается в базу.
и пофигу на синхронность. (смайлик)

на самом деле в фастАпи доступ в базу реализован не напрямую, а через SessionLocal
который и позаботится о синхронности. почитай https://fastapi.tiangolo.com/tutorial/sql-databases/

з.ы. а может тебе монга больше подойдет?

Написано более трёх лет назад
viktorov_aa @viktorov_aa Автор вопроса

iddqda, у меня нет опыта работы с не реляционынми БД. С реляционными мне все понятно, а с монгой не очевидно, как я буду удалять тысячи лишних отчетов и что будет в этот момент с монгой. Возможно следует и монгу рассмотреть

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

Комментировать

2 комментария

viktorov_aa @viktorov_aa Автор вопроса

Кажется, что перебирать пол сотни тысяч записей в файлах не очень то удобно. Если не реализовывать свою систему индексов, то для поиска файла по ссылке мне придется перебирать кучу лишнего, а пользователю придется ждать. Как то не хорошо

Написано более трёх лет назад
Sergey @Firsov36

Пол сотни тысяч записей - это ерунда, не заметно будет. Те же многие базы используют диск и Вы не замечаете этого. Для вашей задачи точне не проблема, хоть 100 тыс записей. Тут скорее надо смотреть на ресурсы сервера (память, например) и на Ваше знание одной из баз данных. Если ресурсы сервера позволяют и знаете хорошо одну из баз данных, то смело используйте ее.

Написано более трёх лет назад

2 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 181 просмотр
0

ответов
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 71 просмотр
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 229 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 150 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 124 просмотра
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 180 просмотров
2

ответа
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2020-02-14 16:23:46

FastAPI предполагает работу с БД через ORM в частности SQLAlchemy
Который предоставляет слой абстракции.
поэтому не так важно какая база будет использоваться.

Начните с SQLite а потом, если не хватит, легко смигрируете на мускуль или постгрес

Answer 2 · 2020-02-14 16:18:41

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Любую, какую лучше знаете. На таких количествах любая БД будет работать без проблем.

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2020-02-14 16:57:59

Любую реляционную: MySQL, Postgresql, Firebird. Первую точно можно настроить на малое потребление памяти, если необходимо.
При использовании их легко вырасти, не меняя СУБД.
В долгосрочной перспективе SQLite не подходит.

Answer 4 · 2020-02-14 16:07:09

Свою БД на основе файлов. Не нужно устанавливать лишнего софта с функционалом, который вам не нужен, а описанные задачи в файлах можно организовать.

Answer 5 · 2020-02-15 12:37:05

Такая задача идеально решается при помощи s3 или любого объектного хранилища. Оно имеет в себе функции ограничения доступа, удаления старых файлов, и, самое главное, - не нужно самому эти отчёты прокачивать через свой хттп сервер - можно давать ссылку напрямую на хранилище прямо на конкретный отчет.

Для хранения каких-либо метаданных приложения отлично подходит универсальная СУБД PostgreSQL

Answer 6 · 2020-02-16 19:08:47

Вопрос в перспективе тянет на экспертную систему по выбору БД.

При данной постановке - можно брать любую документно-ориентированную. Все одинаково подходят.
Но если основной контент (80% берем по Паретто) это файлы - то можно брать Amazon S3, в дальнейшем с перспективой трансформировать это в DynamoDb если понадобятся транзакции или в Amazon Document Db (он же Mongo) если понадобится тонкая работа с атрибутами документов (или файлов).

Автор должен понять что в это вопросе нет единого правильного решения. Есть просто некая сравнительная табличка где есть набор фичей с одной стороны и набор DBMS с другой и нет такого покрытия которое бы закрыло ВСЕ фичи.

Answer 7 · 2020-02-14 22:20:00

А зачем вообще файлы и база данных? Эту задачу можно решить гораздо проще. Юзер запускает тяжелую задачу, которая строит отчет. Отчет кладется в кеш с временем жизни 30 дней (ну или сколько нужно). Ключом в кеше является уникальное значение, которое юзер получает в ссылке в письме. То есть задача сильно упрощается:

Нет базы
Не нужно писать логику удаления отчетов, потому что они будут удалятся автоматически при протуханиии кеша
Не нужно хранить файлы

Какую БД выбрать для маленького файлового сервиса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт