Какой конфиг сервера оптимален для продакшн сервиса одной модели через Tensorflow Serving?
Как я понял, движок сам подстраивается под имеющийся конфиг: сколько ядер CPU, столько параллельных обработок.
Но вот есть модель классификатор картинок, и надо понять, какой брать сервер, чтобы максимум два запроса обрабатывались одновременно, не более 500ms на ответ.
Модель весит 76Mb, хотя вряд ли это имеет значение.
Пока гонял в тестовом режиме на минимальном дроплете DigitalOcean с 512Mb RAM, одиночные запросы отрабатывали за 4—6 сек., но задействовался свап и при нескольких запросах подряд/одновременно, впске становилось дурно. Нотнамней крутятся еще сервисы маловостребованные.