С точки зрения движка LLM есть один ресурс, который нужно делить на всех клиентов, переключаясь с одного на другого по обработке каждого вопроса. Поэтому движок должен уметь получать контекст пользователя, обрабатываемого в данный момент. Получив его, отправить запрос движку, подождать окончания ответа, а затем поставить текущий сеанс на паузу.
Можно доработать схему, работая с пулом доступных движков.
Добавлено
Получив его ...
имеется в виду, веб-приложением.
От движка требуется способность переключаться между сеансами контекстов.