Как лучше хранить много изображений для веб-приложения?

Question

nkmr @nkmr

Как лучше хранить много изображений для веб-приложения?

Приветствую!
Столкнулся с новой для себя задачей, и показалось, что правильным будет не только поискать способы решения в открытом доступе, но и обратиться за советом к кому-то с опытом в решении подобного вопроса.

Есть веб-приложение (веб-интерфейс + API), в качестве СУБД используется Postgres.
Пользователи в частности загружают на сервер изображения, после этого их просматривают/скачивают, также относительно редко само приложение использует эти изображения для ряда операций (без изменения).
Пусть условно со стороны пользователей это будет 1000-2000 запросов на отправку изображений ежедневно и 3000-5000 на получение, размер 1 изображения в среднем 4-5Мб. Предположим с оптимизмом, что объём информации со временем будет расти.

Очень важно хранить все изображения в исходном качестве, не терять их, а также иметь возможность разграничивать к ним доступ среди пользователей приложения. Чуть менее важно уметь отдавать изображения пользователю за разумное время.
Изначально пользователей было немного, наплыва данных не было, и без каких-либо проблем изображения хранились в БД в отдельной таблице в колонке с типом bytea.

На данный момент объём изображений приближается к 1Тб и стремительно растёт, при этом занимают они >90% хранимой информации.
Встаёт вопрос о том, как лучше, и надо ли, реорганизовать хранение изображений. Хочется минимизировать проблемы при работе с БД (процесс создания бекапов и производительность в целом), и потенциальные замедления в доставке изображений до пользователей. И главное, желательно, забыть на долгое время об описанной проблеме :)

До этого не сталкивался с задачами такого рода, поэтому достаточно слабо представляю варианты выбора и их последствия в долгосрочной перспективе.
Имеет ли смысл пытаться дальше расширять дисковое пространство и далее хранить изображения в базе?
Сразу перевозить изображения в облачное объектное хранилище? Позволяет ли оно решить вопрос разграничения доступа на уровне пользователей приложения так, чтобы само приложение не ходило грузить данные с облака?
Либо же какой вариант может быть ещё лучше? :)

Вопрос задан более двух лет назад
5536 просмотров

1 комментарий

Подписаться 3 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

7 комментариев

My1Name @My1Name

на подключенном S3 к примеру

Ссылку на пример добавьте пожалуйста.

На сколько я понимаю, это нужно писать API-сервер для хранения и раздачи файлов на отдельном сервере?

Написано более двух лет назад
Drno @Drno

My1Name, у меня нет примеров. Это направление мысли

Написано более двух лет назад
ThunderCat @ThunderCat Куратор тега Веб-разработка

My1Name,
Ссылку на пример добавьте пожалуйста.

Пример чего? S3 провайдер обычно описывает стандартные эндпоинты апи, а для всех популярных движков есть готовые пакеты для драйвера хранилища с документацией.

Написано более двух лет назад
My1Name @My1Name

ThunderCat, Тут прочитал, что я в общем-то правильно понимаю, но это сам принцип устройства объектного хранилища S3: Это HTTP-API, который позволяет загружать, получать и удалять данные по имени.

Пример чего?

Я не могу понять, как работать с S3 программно, в моём случае средствами java? Мне не нужен веб-интерфейс в картинках...

Мне надо что-то типа: "качаем драйвер с Maven repository; устанавливаем логин/пароль администратора. Отправляем файл таким-то образом... Получаем ссылку на файл таким-то образом..."

Написано более двух лет назад
Dmitry @q2digger

My1Name, вот описание API Yandex Cloud Object Storage - это копия AWS S3 , там есть примеры и документация.
https://cloud.yandex.com/en/docs/storage/s3/

Написано более двух лет назад
nkmr @nkmr Автор вопроса

My1Name, как я понимаю, Вам нужно искать для Java что-то по ключевым словам "java amazon s3", и вы получите готовое искомое решение, которое по идее должно быть совместимо с теми же решениями от Яндекса и т.д.

Написано более двух лет назад
hx510b @hx510b

не надо на S3 хранить и на клауде - оно медленное....

Написано более двух лет назад

3 комментария

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 195 просмотров
6

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 152 просмотра
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 281 просмотр
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 927 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3781 просмотр
12

ответов
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 475 просмотров
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 3 подписчика
- 25 мая
- 524 просмотра
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 235 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 2 подписчика
- 22 мая
- 260 просмотров
2

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1188 просмотров
4

ответа
Показать ещё Загружается…

Хранить файлы в базе с самого начала была так себе затея.

Нормально хранить в S3 (как стороннем, так и самостоятельно поднятым. Легко масштабировать - поднимаем ещё один инстанс, другого поставщика итдитп. В базе храним ссылку на файл. Можно регорганизовать сервис так, что он будет отдавать клиентскому приложению presigned url на файл ограниченного срока действия (например, 5 минут), чтобы утекание ссылки не создавало больших рисков. Так как контент отдаваемого файла при этом не прокачивается через бэкенд, можно избежать лишней нагрузки на своё приложение. И база не страдает, потому что извлечь ссылку на файл можно быстро.

Но это необязательно, можно и просто на диске. Но не в базе.

Answer 1 · 2024-01-22 23:46:06

в БД обычно хранится "ссылка" \ хеш на файл, а сам файл может хранится либо просто на диске в системе, либо на подключенном S3 к примеру, это уже как по деньгам \ удобству итд...

Answer 2 · 2024-01-23 00:30:20

Хранение файлов в бд - самый хреновый вариант из имеющихся. По многим причинам, но основная - файлы должны лежать в файловой системе. Это их естественное состояние. Это быстро, не затратно, не потребляет лишнюю память/процессор и просто удобно. В зависимости от необходимости давать к ним доступ всем или по авторизации, будет либо работа напрямую с статикой через какой-нить нжинкс, либо программно сформированный поток байт через что-то типа пхпшного readfile...

В зависимости от возможностей хостинга, файлы хранят либо локально(в случае например собственного выделенного сервера и наличия райд стойки), либо, как уже написали, в облачных хранилищах, что чаще всего достаточно выгодно в плане денег за объем/трафик, плюс расширение хранилища будет просто отражаться на счете за услуги, а не ложиться ответственностью на вас как владельца сгоревших винтов с данными клиента. АПИ у всех весьма несложные, а драйвера для работы с удаленными файлохранилищами есть практически для всех популярных движков в виде готовых пакетов.

Answer 3 · 2024-01-22 23:46:21

Веб приложения максимально оптимизированы при работе с файлами на диске.
Никакой другой метод не позволит дать такую производительность.

Поэтому - авторизацию доступа делай на уровне веб сервера (вот пример с нормальным oauth)

Для удобства обслуживания всего архива, раскидывай файлы по подкаталогам таким образом, чтобы в одном каталоге было не больше десятков тысяч файлов (иначе получение списка файлов будет медленным).

В качестве имени файла и каталога используй уникальный идентификатор из базы данных (т.е. при загрузке изображения ему отводится запись в базе, и уже после файл перемещается в архив, доступный веб серверу как статичные файлы).

Тупой пример - числовой идентификатор переводи в hex, дели на группы по 4 символа и создавай соответствующие каталоги: /images/0d4f/3b00/a841/0d88, тут 0d88 это файл, остальные части - каталоги. Идентификатор соответственно 64-битное число 0x0d4f3b00a8410d88

Недостаток подхода, так как хранилище не входит в транзакционную базу данных, за целостностью приходится следить самому, т.е. если удалили запись в базе, то запись на диске не удалять а перемещать во временное место, пока не завершится транзакция, при успешном завершении файл удаляется окончательно (на самом деле ОС будет его еще держать какое то время доступным, если файл открыт пользователем, т.е. в данном случае веб сервер но нужно еще проверить, не закрывает ли он его каждый раз как отсылает часть), ну а если транзакция сфейлится, то файл нужно будет вернуть назад. Само собой следить за этим местом при запуске сервиса после сбоя.

p.s. хранить большие бинарные блобы в базе данных можно только при очень большой нужде в транзакциях, и это очень дорого и по памяти и по процессору.

Answer 4 · 2024-01-23 17:17:02

Чтобы забыть о проблеме на долго конечно лучший выбор отдельное объектное хранилище. Не обязательно это должно быть облачное решение, можно организовать self-hosted S3-совместимое решение с использованием https://min.io/. Это позволит использовать любую готовую библиотеку s3-клиента для работы с файлами (upload/download/delete)

Плюсы - при правильной настройке размер хранилища можно бесконечно расширять и масштабировать/реплицировать.

Вопрос разграничения доступа можно решить тем что для доступа к файлу генерируется временная ссылка с ключем. Вариант хорош тем что раздачей файлов будет заниматься сервис хранения и не надо гонять данные между бэкендом и хранилищем. Бэкенд лишь при запросе файла проверяет права доступа и генерит секретную ссылку на скачивание.

Другой вариант это проксировать все запросы на файлы через приложение: пользователь запросил файл -> бэкенд проверил права доступа -> бэкенд обратился к s3 хранилищу чтобы получить файл -> бэкенд передал файл пользвоателю. Это примерно как было у вас с хранением файлов в базе, пользователь не может напрямую скачать файл из базы, а это за него делает ваше бэкенд приложение.

Answer 5 · 2024-01-23 09:33:09

Много слов, а задача тривиальная. Файлы на сервере хранят как дома. Представь тебе надо хранить фото. Распихал по папкам с названиями и тип-топ. Мало места - надо докупить или удалить лишнее. Надо бэкап значит надо. Это все элементарная логика и больше ничего. Все остальное как ее написать кодом.

Answer 6 · 2024-01-30 00:49:56

Все комментаторы выше далеки от реальности, хочешь в базе, хочешь в папках на дисковой подсистеме, хочешь в матрицах любых размерностей в оперативной памяти храни, как больше нравится и удобнее тебе. Производительность всей хурмы зависит только от реализации её, храниш на диске, складывай по папкам, которые будут служить разделами(индексами) расположения нужного файла с привязкой к чему-то удобному тебе, что быстро и без заморочек ты всегда понимал, как обратится к нужным данным, хранишь в базе, используй таблицу связей, храня в ней разделы, либо используй разделы прям в основной одной таблице, при выборке всегда добавляй связь с разделами для минимизации результатов выборки, используй при поиске ограничения топ, оффсет и прочую хурму, тоже и в оперативке. Файлы на дисковой подсистеме это та же база данных, только на уровне операционной системы и ее приложений, та же индексация, разбивка, долгий поиск и обращения к нужным данным при отсутствии структурированных индексов, для быстрого поиска рекомендую маркировать файлы самостоятельно тегами по которым можно их искать, как пример изображение с цветком, теги цвет, красный цветок, роза, ваза, цветок в вазе, лето, маша, ну суть думаю ясна. Файл dota2.exe теги игруха, дота, pvp, игры, игры на пк, компьютерные игры и т.д.

Как лучше хранить много изображений для веб-приложения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт