датабрикс как я понимаю заточен на чтение с amazon s3 сториджа просто файликов, типа json или parquet, т.е. данные твоего клиента кладешь на s3 и просчитываешь датабриксом- Вот-вот я так и подумал. Поэтому, если у меня приложение, которое работает с данными клиентов которые храняться в БД, то я думаю для начала Spark с standalone cluster mode на достаточно сильной машине имеет смысл. Не надо будет "всю хадуповскую инфраструктуру" настраивать, а попозже, если будет надобность, то уже и решать.
Ударение идёт на масштабирование в будущем.
И почему это на VPS контейнеры не нужны? Проще же взять готовый контейнер где уже всё работает, нежели "танцевать с бубном" и вручную настраивать и стартовать все нужные сервисы.
Или вы имеете введу, что масштаб не тот?
Ну и если смотреть, то да, в облаке можно без проблем масштабироваться, но по сути, там же тоже машины, сервера и так д.. Просто организовано по другому.
Можно же так же, взять мощный сервер и на нём разворачивать контейнеры. Мы сейчас не говорим о том, что когда-то ресурсы в сервера закончатся.