Как обеспечить многопользовательскую поддержку в LLM?

Question

emitrokhin @emitrokhin

Как обеспечить многопользовательскую поддержку в LLM?

Кто сталкивался с concurrent доступом/запросом к текстовой языковой модели? Поясню, что я имею в виду: есть желание обеспечить доступом к текстовой модели нескольким десяткам человек. Какие наборы инструментов это помогут сделать? Из того, чем владею (опыт скромный), это
мак на arm,
llama.cpp,
сервер, что умеет попросить подождать, пока запрос исполняется,
и ui.

Ну с точки зрения сервера вопросов нет - поставит в очередь, и кто надо, дождется ответа. Но вот не могу понять, как в той же llama.cpp запускаться в несколько потоков, чтобы можно было много разных промптов от разных людей в разных контекстах обрабатывать.

Вопрос задан более года назад
567 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Everything_is_bad @Everything_is_bad

ну так просто запусти несколько инстансов и всё

Написано более года назад
emitrokhin @emitrokhin Автор вопроса

Everything_is_bad, да, я такой вариант тоже рассматриваю. Но в случае совсем уж больших моделей работающих в режиме чат бота это будет слишком роскошно

Написано более года назад
# @mindtester

emitrokhin, а доступ readonly? тогда вообще не понятна проблема..
или возможны записи/правки?

Написано более года назад
emitrokhin @emitrokhin Автор вопроса

#, возможно я не совсем понимаю про "только чтение". Моя задача обеспечить многопользовательскую работу в стиле чат бота. Люди через свой фронтенд пишут текст, а сервер собирает запросы и в движок LLM направляет. И у меня в этом моменте возникает непонимание, какие движки могут входящие запросы обрабатывать параллельно, ну то есть например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp

Написано более года назад
# @mindtester

emitrokhin, кхмм.. ну может я тоже не совсем спец в linux...
и возможно не верно отреагировал на LLM..
если файловый (или БД) ресурс, будет иметь конкурентные запросы на запись, то все верно, будет очередь..
если ресурс файловый, то стоит посмотреть в сторону БД.. наверное мне не чего больше сказать. удачи ))

Написано более года назад
Vindicar @Vindicar

#, тут под LLM имеется ввиду Large Language Model (нейросеть а-ля GPT), это вычислительно жоркий ресурс.

Написано более года назад
# @mindtester

Vindicar, аа.. марь иванна.. сори ))
но суть одна:
- только запросы? (тогда к авторам софта)
- есть запросы вносящие изменения? (логика будет как у БД..

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб.
- 60 просмотров
2

ответа
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 366 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 192 просмотра
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 330 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 733 просмотра
4

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 1 подписчик
- 01 окт.
- 580 просмотров
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 103 просмотра
0

ответов
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 118 просмотров
2

ответа
Искусственный интеллект

Средний
Как обучить нейросеть используя API от DeepSeek/ChatGPT?
- 1 подписчик
- 14 сент.
- 190 просмотров
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 177 просмотров
4

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Lead Тестировщик/QA инженер

EnerGO Technologies

от 200 000 ₽

ну так просто запусти несколько инстансов и всё
Everything_is_bad, да, я такой вариант тоже рассматриваю. Но в случае совсем уж больших моделей работающих в режиме чат бота это будет слишком роскошно
emitrokhin, а доступ readonly? тогда вообще не понятна проблема..
или возможны записи/правки?
#, возможно я не совсем понимаю про "только чтение". Моя задача обеспечить многопользовательскую работу в стиле чат бота. Люди через свой фронтенд пишут текст, а сервер собирает запросы и в движок LLM направляет. И у меня в этом моменте возникает непонимание, какие движки могут входящие запросы обрабатывать параллельно, ну то есть например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp
emitrokhin, кхмм.. ну может я тоже не совсем спец в linux...
и возможно не верно отреагировал на LLM..
если файловый (или БД) ресурс, будет иметь конкурентные запросы на запись, то все верно, будет очередь..
если ресурс файловый, то стоит посмотреть в сторону БД.. наверное мне не чего больше сказать. удачи ))
#, тут под LLM имеется ввиду Large Language Model (нейросеть а-ля GPT), это вычислительно жоркий ресурс.
Vindicar, аа.. марь иванна.. сори ))
но суть одна:
- только запросы? (тогда к авторам софта)
- есть запросы вносящие изменения? (логика будет как у БД..

Answer 1 · 2024-02-10 15:06:22

Друзья, всем спасибо за ответы. Как мне удалось выяснить, llama.cpp имеет серверный режим, который может обеспечить на одной машине параллельную обработку промптов.

Answer 2 · 2024-02-10 11:37:02

С точки зрения движка LLM есть один ресурс, который нужно делить на всех клиентов, переключаясь с одного на другого по обработке каждого вопроса. Поэтому движок должен уметь получать контекст пользователя, обрабатываемого в данный момент. Получив его, отправить запрос движку, подождать окончания ответа, а затем поставить текущий сеанс на паузу.
Можно доработать схему, работая с пулом доступных движков.

Добавлено

Получив его ...

имеется в виду, веб-приложением.

От движка требуется способность переключаться между сеансами контекстов.

Answer 3 · 2024-02-10 14:19:40

что то вы все всё намудрили, запросы, ридонли, контексты
можешь запустить несколько инстансов - запускай, пусть разгребают очередь
не можешь - запускай один, и пусть он же и разгребает
в чем проблема? тут нет ничего нового, это обыкновенная CLI-программа

например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp

два инстанса - два промпта, либо настолько быстрая генерация, что кажется, что они выполнились одновременно
нет там никакой алгоритмической магии, просто большой вычислительный ресурс, нет никаких параллельных потоков, любой параллельный поток это просто другой инстанс, оно просто с архитектурной точки зрения не предназначено работать параллельно, это тебе не квантовая суперпозиция

про контексты и сеансы что то Иерокопус Таманский вообще завернул, это вопроса не касается никак и ты в целом простое решение сложными словами описал, не очевидно что бекенд должен куки с сессиями и контекстами разруливать? оно же из формулировки вопроса уже - многопользовательское

вот тебе принципиальная схема на примере чего-то другого. слева - UI, центр - очередь запросов на генерацию, справа - инстансы, слово "matlab" просто мысленно замажь

Как обеспечить многопользовательскую поддержку в LLM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт