Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?

Question

dexxp @dexxp

Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?

Я новичок в DevOps, и мне необходимо построить систему, которая сможет собрать файлы с 60к хостов, которые будут делать это, вероятнее всего, параллельно.

Клиент (sender-service)
На каждом хосте запускается клиент на golang(minio-go), который регулярками обходит директории и достаёт из них файлы(файлы в основном небольшие). К этим файлам добавляется префикс hostname/filepath и они сразу же отправляются(стримятся) по сети в S3 в сжатом потоке(lz4.Writer). Каждый клиент запускается на хосте единоразово и работает в однопоточном режиме. За свою работу sender-service отправит всего около 100мб сжатых данных и порядка 3-5к файлов.

Кластер MinIO (предполагаемый мной):

Количество хостов: 4
ОС: linux
Количество ядер: 8-16
ОЗУ: 32/64 гб
Количество инстансов MinIO: 4, один на хост
Количество дисков: 3 локальных SSD (1-2 ТБ), итого 12 дисков
Внутреннее соединение между нодами: 10 Gbps
Используется EC 8+4
Внешний балансировщик (думаю насчет HAProxy или Envoy) с round-robin

reader-service
Когда sender-service закончит работу, он отправит свой hostname в reader-service, в свою очередь он сходит в S3 и достанет из бакета все объекты по этому префиксу. Все эти объекты reader-service заархивирует и отправит во внешнюю систему. То есть, нагрузка на чтение из S3 тоже будет и это нужно как-то учитывать.
(!) Этот сервис обрабатывает ровно одного клиента за раз

Вопросы:

Выдержит ли такая конфигурация MinIO 60 000 одновременных клиентов, если нагрузка идёт в стриминге?
Есть ли ограничение на количество одновременных соединений/транзакций в MinIO, о котором стоит знать?
Есть ли известные узкие места в такой архитектуре?

Очень важно: не потерять файлы
Чем можно пренебречь:

Скорость: главное, чтоб всё собралось
Долго и надежно хранить: после отправки архива reader-service'ом, данные в бакете по этому хосту больше не нужны

Подытожу:
Система работает разово, но с высокой интенсивностью. Нужно минимизировать стоимость инфраструктуры, не потеряв файлы при параллельной отправке от 60к клиентов, при этом скоростью и долговечностью можно пренебречь.

Вопрос задан 03 авг.
396 просмотров

4 комментария

Подписаться 2 Средний 4 комментария

Everything_is_bad @Everything_is_bad

обычно поднимают тестовый стенд и на нём ставят эксперименты

Написано 03 авг.
SunTechnik @SunTechnik

1.Передать 1 файл на 100MB, проще и надёжнее, чем 5000 файлов суммарно на 100MB.
2. Получается, что весь кластер будет использоваться однократно как временное хранилище.
3. Ничего не знаю про кластер MinIO, но 20000 одновременых коннектор на хост - это много.
4. Если Вам скорость не очень важна, почему бы не забирать данные напрямую c клиентов. Можно в своё локальное хранилище
Тогда легко можно регулировать степень загрузки. Постепенно перебрать всех клиентов и забрать от них данные..

(Последовательно перебрать 60000 клиентов - вопрос упирается лишь во время, а одновременно обслужить 60000 клиентов - потребует заметных ресурсов )

Написано 03 авг.
dexxp @dexxp Автор вопроса

Everything_is_bad, да, это то, чем я займусь завтра, спасибо! поделюсь результатами, если что-то выйдет из этого)

Написано 03 авг.
dexxp @dexxp Автор вопроса

SunTechnik, спасибо за развернутый ответ!
1. Абсолютно согласен и это можно было бы реализовать, если бы клиент клал архив прям себе на ФС и после завершения сбора, отправлял на S3 или сразу в reader-service. Однако мы прям очень не хотим взаимодействовать с ФС клиента, т.к. можем затереть какие-то артефакты.
2. Все верно.
3. Согласен, думаю, что клиенты получится запускать пачками и/или увеличивать количество хостов.
4. Да, это очень логично и хотелось бы так делать, но когда парочку хостов будет иметь сетевой доступ к такому большому количеству клиентов, может пойти что-то не так и случиться что-то очень плохое(если к таким хостам получит доступ хакер, а в теории, он может получить к ним доступ).

Написано 03 авг.

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Электроника

+1 ещё

Простой
Как настроить CICD но для микроконтроллеров?
- 1 подписчик
- 09 нояб.
- 220 просмотров
4

ответа
Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб.
- 65 просмотров
2

ответа
Debian

+1 ещё

Простой
Как решить проблемы со сборкой дистрибутива через Simple-CDD (preseed, packages, postinst)?
- 1 подписчик
- 30 окт.
- 84 просмотра
0

ответов
Организация работы

+1 ещё

Простой
Как вести учёт серверов, сервисов (где какой), доменов, IP и ключей?
- 4 подписчика
- 03 окт.
- 534 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 124 просмотра
2

ответа
DevOps

Простой
Как происходит деплой без Kubernetes через GitHub CI/CD?
- 2 подписчика
- 26 сент.
- 243 просмотра
2

ответа
Карьера в IT

+1 ещё

Простой
Как искать работу DevOps c резюме frontend?
- 3 подписчика
- 22 сент.
- 609 просмотров
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 180 просмотров
4

ответа
Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 6 подписчиков
- 12 авг.
- 1218 просмотров
1

ответ
Docker

+2 ещё

Средний
Как использовать docker secrets в bash скриптах?
- 1 подписчик
- 09 авг.
- 361 просмотр
5

ответов
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Fullstack-разработчик

IT-hunter • Санкт-Петербург

До 300 000 ₽

обычно поднимают тестовый стенд и на нём ставят эксперименты
1.Передать 1 файл на 100MB, проще и надёжнее, чем 5000 файлов суммарно на 100MB.
2. Получается, что весь кластер будет использоваться однократно как временное хранилище.
3. Ничего не знаю про кластер MinIO, но 20000 одновременых коннектор на хост - это много.
4. Если Вам скорость не очень важна, почему бы не забирать данные напрямую c клиентов. Можно в своё локальное хранилище
Тогда легко можно регулировать степень загрузки. Постепенно перебрать всех клиентов и забрать от них данные..

(Последовательно перебрать 60000 клиентов - вопрос упирается лишь во время, а одновременно обслужить 60000 клиентов - потребует заметных ресурсов )
Everything_is_bad, да, это то, чем я займусь завтра, спасибо! поделюсь результатами, если что-то выйдет из этого)
SunTechnik, спасибо за развернутый ответ!
1. Абсолютно согласен и это можно было бы реализовать, если бы клиент клал архив прям себе на ФС и после завершения сбора, отправлял на S3 или сразу в reader-service. Однако мы прям очень не хотим взаимодействовать с ФС клиента, т.к. можем затереть какие-то артефакты.
2. Все верно.
3. Согласен, думаю, что клиенты получится запускать пачками и/или увеличивать количество хостов.
4. Да, это очень логично и хотелось бы так делать, но когда парочку хостов будет иметь сетевой доступ к такому большому количеству клиентов, может пойти что-то не так и случиться что-то очень плохое(если к таким хостам получит доступ хакер, а в теории, он может получить к ним доступ).

Answer 1 · 2025-08-03 23:26:26

Странно как-то. Вы же уже предложили "решение", а теперь спрашиваете, будет ли оно работать!
Скажу так - без нагрузочных тестов никто не скажет!
Ну и замечу, seaweedfs раза в 4 произодительнее minio.

Answer 2 · 2025-08-03 13:22:51

Если файлы не нужно хранить, зачем S3? Отправляйте их сразу с хостов "во внешнюю систему". Чтобы не потерять по дороге - предусмотрите обработку переотправки, если что-то пошло не так.

Answer 3 · 2025-08-07 08:52:56

Добрый день!
Коллеги в комментариях дали верные советы: финальный ответ даст только нагрузочное тестирование, и SeaweedFS действительно стоит рассмотреть в будущем за его производительность.
Но если говорить конкретно про вашу предложенную архитектуру с MinIO, то в ней есть несколько неочевидных, но критически важных мест, которые могут привести к потере данных при такой нагрузке.
Если кратко: в текущем виде конфигурация, скорее всего, не выдержит, но ее можно доработать, чтобы она справилась.

Первое слабое место: Сеть и Балансировщик
Вы абсолютно правы, что вынесли балансировщик отдельно. Но при 60 000 одновременных клиентов он станет вашей главной точкой отказа.
Проблема: Один IPv4-адрес на балансировщике может обслуживать не более ~65 000 одновременных TCP-соединений (это теоретический предел количества портов). Ваши 60 000 клиентов подходят к этому пределу вплотную. Любые дополнительные служебные соединения или небольшая погрешность приведут к тому, что новые клиенты просто не смогут подключиться.
Решение: Вам необходимо как минимум два балансировщика (например, два HAProxy на отдельных VM), каждый со своим собственным публичным IP-адресом. На уровне DNS вы настраиваете Round Robin для вашего домена S3, чтобы клиенты случайным образом распределялись между этими двумя IP. Это разделит нагрузку и решит проблему с исчерпанием портов.

Второе слабое место: CPU и Erasure Coding
Вы выбрали Erasure Coding (EC) 8+4. Это отличный выбор для долгосрочного и экономичного хранения данных. Но для вашей задачи — короткий, интенсивный всплеск записи — это худший из возможных вариантов.
Проблема: Erasure Coding — это очень ресурсоемкая по CPU операция. При записи каждого объекта MinIO придется "на лету" вычислять 4 блока четности, что создаст колоссальную, избыточную нагрузку на процессоры и станет главным виновником замедления всего процесса.
Решение: Откажитесь от EC. Учитывая, что вам не нужно долго хранить данные, а важна только надежность записи, вам идеально подойдет стандартная репликация. А еще лучше и дешевле, учитывая вашу задачу — запустить каждый из 4-х инстансов MinIO в standalone-режиме. Риск отказа одного из четырех серверов именно в короткий промежуток загрузки минимален, а производительность и экономия будут максимальными.

Ответы на ваши прямые вопросы:
Выдержит ли такая конфигурация MinIO 60 000 одновременных клиентов?
С предложенными мной изменениями (2+ балансировщика и отключение Erasure Coding) — да, выдержит.

Есть ли ограничение на количество одновременных соединений/транзакций в MinIO?
Само приложение MinIO не имеет жесткого лимита, но оно всегда упирается в ограничения операционной системы (количество файловых дескрипторов, лимиты TCP-стека) и железа. Главное ограничение, как я описал выше, — это количество доступных портов на одном IP-адресе вашего балансировщика.

Есть ли известные узкие места в такой архитектуре?

Да. Это балансировщик (решается несколькими IP) и CPU (решается отключением Erasure Coding). Также критически важна надежность самих клиентов: ваш sender-service на Go обязательно должен иметь встроенную логику повторных попыток (retry) с экспоненциальной задержкой. Если PUT-запрос не удался, клиент должен попробовать еще раз через секунду, потом через три, и так далее. Это и есть ваша главная гарантия от потери файлов.

Рекомендуемая архитектура для вашей задачи на мой взгляд:
Балансировщики: 2 x HAProxy на отдельных VM с двумя публичными IP. DNS Round Robin.
Ноды MinIO: 4 ноды, как вы и планировали, но каждый инстанс MinIO запущен в режиме standalone (без EC).
Диски: 12 SSD — отличный выбор для быстрой обработки метаданных.
Клиент sender-service: Обязательная реализация логики retry.
И, как правильно заметили коллеги из комментариев, финальный ответ даст только нагрузочное тестирование.

Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт