С темой нейросетей не знаком, но полагаю, что работают все те же правила, что и в обычном вебе:
1) Балансировщики нагрузок. Ставите свои сетки на нескольких серверах и между ними балансируете, чтобы распределять нагрузку. Возможно, имеет смысл присмотреться к Docker Serverless или Kubernetes.
2) Очередь сообщений, чтобы удержать все запросы в уме и ничего не потерять. Стандартные или FIFO, это уже решать вам как архитектору.
3) Используете serverless api gateway для самого бота, чтобы динамически скалировать нагрузку в зависимости от количества запросов.
4) Результаты можете сохранять себе в S3, а можете пытаться сразу выплёвывать сразу в телеграм как-нибудь, чтобы не захламлять свой хостинг.
Разворачивать всё это можно где хотите: Google Cloud, AWS, Яндекс Облако. Главное, чтобы присутствовали сервисы, о которых я говорю выше. Ну и цены/локацию подбирайте под себя.