Как масштабировать сервис хранения картинок?

Question

Алексей @alenov

Программист

Как масштабировать сервис хранения картинок?

Есть микросервис для хранения файлов картинок. Допустим, его url - s1.site.ru
Устроен просто:
- загрузка файлов по API с помощью POST-запроса s1.site.ru/upload
- удаление файлов по API с помощью POST-запроса s1.site.ru/delete или GET-запроса s1.site.ru/delete/some_filename.jpg
- получение файлов s1.site.ru/storage/some_filename.jpg

Теперь этот сервис нужно горизонтально масштабировать + повесить на него ssl сертификат.
Допустим, я поднимаю ещё несколько таких сервисов, например s2.site.ru, s3.site.ru, ... - и их нужно как-то объединить.

Очевидное решение, которое приходит в голову: поднять балансировщик с адресом типа https://files.site.ru, прикрутить к нему ssl-сертификат, и проксировать запросы (уже без ssl) по сервисам.

API запрос https://files.site.ru/upload распределяется по сервисам, используя вес сервиса. Он должен вернуть клиенту абсолютный url загруженного файла, например "https://files.site.ru/storage/some_filename.jpg".
Запрос https://files.site.ru/storage/some_filename.jpg должен сразу проксироваться на тот сервис, на котором этот файл лежит. Как это сделать? Может, some_filename.jpg должно ещё что-то в себе содержать, какой-то ключ, чтобы балансировщик знал, куда отправить запрос? Или есть более умное решение?
То же самое относится и к https://files.site.ru/delete/some_filename.jpg

Буду очень признателен, если кто-то скажет, каким балансировщиком и как это реализовать, и нарисует пример конфига, хотя бы схематично, а то я себе его неясно представляю)

ГОТОВЫЕ РЕШЕНИЯ ТИПА S3 ИЛИ ПОДОБНЫЕ НЕ РАССМАТРИВАЮТСЯ!

Вопрос задан более трёх лет назад
607 просмотров

17 комментариев

Подписаться 10 Сложный 17 комментариев

Иван Шумов @inoise

У меня одного вопрос нафига ТС делает себе больно и сам пишет Object Storage?

Написано более трёх лет назад
JhaoDa @JhaoDa

удаление файлов по API с помощью [...] или GET-запроса
Вот это прям «огонь».

Написано более трёх лет назад
NewDevLab @NewDevLab

В такой парадигме действительно нормально иметь в имени файла какой-то префикс, который проецируется на конкретную машину или еще на что, что потом распределит.

Написано более трёх лет назад
NewDevLab @NewDevLab

Иван Шумов, да, у одного, и да, блин, это нормально, что все пишут свой сторедж. не надо везде совать свое S3.
инфраструктура у всех разная.

Написано более трёх лет назад
Иван Шумов @inoise

NewDevLab, да я не только про S3, есть куча подобных решений. Просто я в 100500 раз скажу что on-prem масштабируемых подобных решений не бывает в природе) А все попытки заканчиваются крахом

Написано более трёх лет назад
Алексей @alenov Автор вопроса

JhaoDa, а что, собственно, смущает?

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

Я не буду столь категоричен как Иван Шумов, но если это не учебный проект, я бы посмотрел на готовые вещи типа https://min.io/

Написано более трёх лет назад
NewDevLab @NewDevLab

Иван Шумов, Это потому что Вы, Иван, не умеете в это. Просто не знаете как это, вот что происходит в итоге и как. Потому что на курсах AWS этому не учат. А учат вот таких продажников и внедряльщиков.
Чтобы потом, вот этот пост написать человеку, у которого уже есть софт и инфраструктура и он хочет просто её масштабировать.

Написано более трёх лет назад
Иван Шумов @inoise

NewDevLab, люди, которые имеют технологическую возможность развернуть такой сервис не задают эти вопросы на тостере и не смогут себе позволить поддержку такого сервиса у себя. Одна амортизация дисковых накопителей обойдется не дешево, а не забываем еще о том что оно должно реплицироваться и масштабироваться

Написано более трёх лет назад
NewDevLab @NewDevLab

Иван Шумов, человек нормально видит решение вопроса. если у него в дальнейшем возникнут проблемы, я уверен, он сможет их решить тем или иным образом.

Написано более трёх лет назад
Иван Шумов @inoise

NewDevLab,
человек нормально видит решение вопроса

нет

Написано более трёх лет назад
Алексей @alenov Автор вопроса

Иван Шумов, как совершенно справедливо отметил NewDevLab, у меня уже есть софт и инфраструктура и я хочу просто её масштабировать. Теории насчёт моих технологических возможностей и о том, что я могу/не могу себе позволить не относятся к сути вопроса, который я задал. Лучше помогите с ответом, если знаете что-то по теме, буду очень признателен. Интересует пример конфига, к примеру, на HaProxy (насколько мне известно, такая задача на nginx не может быть решена оптимальным способом из-за ограничений nginx)

Написано более трёх лет назад
Иван Шумов @inoise

Алексей, проблема в том что конфигом это не решится. Вам нужно его динамически составлять на основе метрик нод, иметь сервис по поиску ноды, а также разделять трафик на чтение и на запись. Успехов в этом не легком.

Написано более трёх лет назад
NewDevLab @NewDevLab

Иван Шумов, вот здесь лайк, я соглашусь, можете. только это можно делать иногда последовательно, имея проблемы и успешно решая их.

Написано более трёх лет назад
Иван Шумов @inoise

NewDevLab, я просто знаю архитектуру такого сервиса на каждом этапе разработки. Это долго и дорого даже для MVP

Написано более трёх лет назад
NewDevLab @NewDevLab

Иван Шумов, наверняка, это будет интересно почитать на хабре. горизонты открыты...

Написано более трёх лет назад
Иван Шумов @inoise

NewDevLab, делать мне больше нечего)

Написано более трёх лет назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

2 комментария

Алексей @alenov Автор вопроса

Подскажите, как это сделать?
Сервис при сохранении файла генерит и возвращает клиенту его локальное имя, к которому потом клиент приклеивает адрес сервера s.site.ru (он же балансировщик, см. Решение), и получается абсолютное имя. Какой функцией сервис должен сгенерить имя, чтобы оно потом однозначно указывало на адрес сервиса? Причём расшифровку потом должен делать балансировщик, т.е. nginx в своём конфиге, иначе придётся городить ещё какую-то прослойку.

Написано более трёх лет назад
uvelichitel @uvelichitel
Я имел ввиду что то вроде(очень упрощенно)

upstream backend { hash $request_uri consistent; server s1.site.ru; server s2.site.ru; server s3.site.ru; }
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Простой
Как балансировать запросы на чтение между репликами, если на уровне приложения разделить запросы на чтение и запись невозможно?
- 5 подписчиков
- 18 мар.
- 1716 просмотров
1

ответ
PHP

+3 ещё

Простой
Как правильно построить сервис, создающий отложенные задачи на основе расписания из другого сервиса?
- 2 подписчика
- 11 мар.
- 319 просмотров
2

ответа
Cloudflare

+2 ещё

Средний
Какие могут быть варианты настройки load-balancer \ proxy \ CDN?
- 2 подписчика
- 26 февр.
- 160 просмотров
1

ответ
Сетевое администрирование

+3 ещё

Средний
"Обратная балансировка": распределение трафика между разными интерфейсами?
- 3 подписчика
- 13 янв.
- 450 просмотров
2

ответа
Балансировка нагрузки

Простой
Как настроить балансировщик нагрузки в 3x-ui?
- 8 подписчиков
- 26 дек. 2024
- 1334 просмотра
0

ответов
Go

+2 ещё

Средний
Как организовать отправку сообщений в множество микросервисных нод?
- 2 подписчика
- 15 дек. 2024
- 255 просмотров
2

ответа
VPN

+1 ещё

Средний
Балансировка нагрузки VPN?
- 2 подписчика
- 06 дек. 2024
- 2390 просмотров
4

ответа
DevOps

+2 ещё

Сложный
Внешний, k8s-ingress-aware балансировщик нагрузки для нескольких Kubernetes кластеров?
- 4 подписчика
- 06 нояб. 2024
- 172 просмотра
1

ответ
Балансировка нагрузки

+1 ещё

Средний
Как сделать повторный запрос на HAPROXY?
- 3 подписчика
- 31 окт. 2024
- 208 просмотров
1

ответ
PHP

+4 ещё

Средний
В чем может быть причина сильного увеличения длительности ответа запросов при установке Load Balancer на 2 сервера со стаком MySQL, PHP, Nginx?
- 1 подписчик
- 14 окт. 2024
- 191 просмотр
2

ответа
Показать ещё Загружается…

System analyst / Системный Аналитик

Aston • Москва

от 250 000 до 285 000 ₽

Системный аналитик

ITK academy • Казань

от 85 000 ₽

Fullstack-разработчик (PHP/JavaScript)

Rubrain.com • Москва

от 250 000 до 280 000 ₽

У меня одного вопрос нафига ТС делает себе больно и сам пишет Object Storage?
удаление файлов по API с помощью [...] или GET-запроса
Вот это прям «огонь».
В такой парадигме действительно нормально иметь в имени файла какой-то префикс, который проецируется на конкретную машину или еще на что, что потом распределит.
Иван Шумов, да, у одного, и да, блин, это нормально, что все пишут свой сторедж. не надо везде совать свое S3.
инфраструктура у всех разная.
NewDevLab, да я не только про S3, есть куча подобных решений. Просто я в 100500 раз скажу что on-prem масштабируемых подобных решений не бывает в природе) А все попытки заканчиваются крахом
Я не буду столь категоричен как Иван Шумов, но если это не учебный проект, я бы посмотрел на готовые вещи типа https://min.io/
Иван Шумов, Это потому что Вы, Иван, не умеете в это. Просто не знаете как это, вот что происходит в итоге и как. Потому что на курсах AWS этому не учат. А учат вот таких продажников и внедряльщиков.
Чтобы потом, вот этот пост написать человеку, у которого уже есть софт и инфраструктура и он хочет просто её масштабировать.
NewDevLab, люди, которые имеют технологическую возможность развернуть такой сервис не задают эти вопросы на тостере и не смогут себе позволить поддержку такого сервиса у себя. Одна амортизация дисковых накопителей обойдется не дешево, а не забываем еще о том что оно должно реплицироваться и масштабироваться
Иван Шумов, человек нормально видит решение вопроса. если у него в дальнейшем возникнут проблемы, я уверен, он сможет их решить тем или иным образом.
NewDevLab,
человек нормально видит решение вопроса

нет
Иван Шумов, как совершенно справедливо отметил NewDevLab, у меня уже есть софт и инфраструктура и я хочу просто её масштабировать. Теории насчёт моих технологических возможностей и о том, что я могу/не могу себе позволить не относятся к сути вопроса, который я задал. Лучше помогите с ответом, если знаете что-то по теме, буду очень признателен. Интересует пример конфига, к примеру, на HaProxy (насколько мне известно, такая задача на nginx не может быть решена оптимальным способом из-за ограничений nginx)
Алексей, проблема в том что конфигом это не решится. Вам нужно его динамически составлять на основе метрик нод, иметь сервис по поиску ноды, а также разделять трафик на чтение и на запись. Успехов в этом не легком.
Иван Шумов, вот здесь лайк, я соглашусь, можете. только это можно делать иногда последовательно, имея проблемы и успешно решая их.
NewDevLab, я просто знаю архитектуру такого сервиса на каждом этапе разработки. Это долго и дорого даже для MVP
Иван Шумов, наверняка, это будет интересно почитать на хабре. горизонты открыты...

Answer 1 · 2020-08-20 10:18:25

Спасибо всем, кто дал полезные советы по существу вопроса. Ещё раз кратко. Имеется микросервис хранения картинок, который нужно масштабировать.
Решение получилось следующим. Микросервис поднимается на нескольких серверах:
s1.site.ru
s2.site.ru
s3.site.ru

Также поднимается nginx-балансировщик s.site.ru:

# Список серверов для балансировки запросов на запись (upload).
upstream storage_backend {
    server s1.site.ru:80;
    server s2.site.ru:80;
    server s3.site.ru:80;
}

# Определение локации сервера для запросов на запись и удаление файла. Опция default нужна
# только для того, чтобы в случае неопределённого запроса получить 404, а не 500.
map $uri $storage_location {
    "~/(storage|delete)/s1-"  "s1.site.ru:80";
    "~/(storage|delete)/s2-"  "s2.site.ru:80";
    "~/(storage|delete)/s3-"  "s3.site.ru:80";
    default                           "s1.site.ru:80";
}

server {
    listen 80;
    server_name s.site.ru;

    location / {
        proxy_pass http://$storage_location;
    }

    location /upload/ {
        proxy_pass http://storage_backend;
    }

}

В блоке map часть паттерна "s1...s2...s3" - это префикс имени файла, который формируется и возвращается сервером, выполнившим запрос на запись. Т.е. сервер, записывающий файл, цепляет к имени префикс, по которому затем в этом блоке можно будет однозначно определить локацию. Это добавляет лишних хлопот при добавлении нового сервиса в пул: нужно "ручками" назначить ему этот префикс так, чтобы он был уникальным. Есть в этом какая-то неровность, но я не знаю в данный момент способа это обойти.

В итоге при поступлении запросов на запись, типа POST s.site.ru/upload балансировщик выбирает очередной сервер из storage_backend, а при запросах на получение по uri определяет локацию по $storage_location.

Ну и ssl прикручивается только к балансировщику, стандартно.

Сделал небольшой тестовый пул локально, всё работает. Буду пробовать на реальном железе.

Answer 2 · 2020-08-19 17:08:24

Итак, учим матчасть:

Вам не нужно иметь миллион разных доменов и десяток сертфикатов.
Решение - нормальный балансировщик.

А в остальном, лучше всего сделать что-то в стиле:

GET https://f.s.com/path/to/file.ext скачать
POST  https://f.s.com/path/to/file.ext закачать
PUT  https://f.s.com/path/to/file.ext заменить
DELETE  https://f.s.com/path/to/file.ext удалить

На s.com можно лендинг/приложеньку повесить.

А в целом, прочитайте про NIH и начните использовать Ceph.

Answer 3 · 2020-08-19 03:26:16

Может, some_filename.jpg должно ещё что-то в себе содержать, какой-то ключ

Можно использовать some_filename как ключ. Выберите хеш-функцию которая будет равномерно проецировать строку символов some_filename на адреса сервисов.

Answer 4 · 2020-08-19 15:35:31

В простом варианте:

Загружать файл на files.site.ru, а он уже по некоторму алгоритму (рандомно, остаток от деления свертки на кол-во серверов, с учетом веса/нагрузки/работоспособности серверов или еще как-то) загружает файл на выбранный сервер и возвращает прямую ссылку на него. Если пропускная способность files.site.ru ограничена, тогда у него только спрашивать про сервер, а загружать напрямую на указанный.

Чтение происходит напрямую с сервера, куда загружен файл. Без files.site.ru, чтобы он не стал узким местом

Answer 5 · 2020-08-19 19:42:59

Обычно подобные субдомены (s1, s2, и т.п) создаются для того чтобы балансировать нагрузку на файловый сервер, используя для этого промежуточные кэширующие сервера.
Предположим что у нас есть несколько кэширующих серверов в разных локациях. Каждый из них постоянно передаёт статистику о своёй нагруженности на основной сервер.
При отдаче статики пользователю, скрипт на основном (бэкэнд) сервере обращается в кэш (например, Redis) и получает из него статистику загруженности серверов на текущий момент времени и например их расположение. После этого на основе IP выбирается самый близкий к пользователю сервер а затем выбирается наименее загруженный сервер из списка (пусть он называется s3). Таким образом клиент получает в ответе от скрипта подобный url: https://s3.example.org/cache/images/sample.jpg.
После этого происходит запрос на этот сервер и получение файла из кэша или напрямую из файлового сервера (при отсутствии файла на кэш сервере).
Удалять файлы физически КРАЙНЕ не рекомендуется (особенно если это происходит часто), вместо этого стоит использовать флаг скрытия на программном уровне
Для надёжности желательно использование RAID-5 на файловом сервере. В случае полного хайлоада можно создать несколько репликационных файловых серверов и объединить их в один кластер.
Более подробно, можно прочитать здесь:
https://winitpro.ru/index.php/2013/09/25/ustanovka...

PS Поправьте меня если я ошибаюсь

Как масштабировать сервис хранения картинок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт