• Как обеспечить многопользовательскую поддержку в LLM?

    @emitrokhin Автор вопроса
    #, возможно я не совсем понимаю про "только чтение". Моя задача обеспечить многопользовательскую работу в стиле чат бота. Люди через свой фронтенд пишут текст, а сервер собирает запросы и в движок LLM направляет. И у меня в этом моменте возникает непонимание, какие движки могут входящие запросы обрабатывать параллельно, ну то есть например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp
    Написано
  • Как обеспечить многопользовательскую поддержку в LLM?

    @emitrokhin Автор вопроса
    Everything_is_bad, да, я такой вариант тоже рассматриваю. Но в случае совсем уж больших моделей работающих в режиме чат бота это будет слишком роскошно
    Написано