Как я вижу архитектуру :
1) Amazon api gateway получает запрос с вебхука телеги.
2) Перекидывает его в amazon Lambda
3) Та делает минимальное логирование/метрики и прокидывает дальше в очередь Amazon SQS
4) Дальше очередь разбирается n бекендами (для начала той же Lambda), если это "быстрый" овтет - отвечает юзеру в телегу, если "сложный" - кладёт в SQS и уже это сообщение подбирается другим специальным отдельным EC2 инстансом.
бд : Amazon DynamoDB для удешевления и скорости.
Да, абсолютно нормальней подход
В случае перерасхода средств пути для удешевления :
Пункты 1 и 2 перекидываются на EC2 или инстанс digital ocean'а,
Или AWS ECS + Fargate с scale to 0. В нагрузку получим бонусом работу с контейнерами. И еще придется же все-равно делать троттлинг по скорости отправки. Сколько там сегодня - все те же 30 сообщений в секунду?
1) Имею небольшой опыт работы с prometheus и grafana, хотелось бы и тут их использовать. Подскажите как нынче проще всего интегрировать их? Им нужна своя бд? Проще ли и дешевле ли будет это всё хостить на DO или же сносно будет и на AWS?
дорого, долго настраивать и почти бесполезно в AWS
Что можно использовать для сбора логов сегодня из разряда дёшево и сердито?
В идеологии AWS - ничего кроме CloudWatch. Вне AWS используйте что знаете - все-равно самостоятельно разворачивать.