Один мудрый человек отсюда посоветовал использовать kubernetes, чтобы снизить нагрузку. То есть, раскидать несколько инстансов нейросетки в kubernetes.
Мудрость человека под сомнением, т.к. от распределения нагрузки меньше не станет.
Для распределения достаточно наделать воркеров и очередь для задач, а где это всё поднимать - вопрос отдельный. У managed k8s есть преимущество в виде отсутствия необходимости половых отношениях с драйверами для видеокарт и рантайма для контейнеров, но платно.