Как обеспечить многопользовательскую поддержку в LLM?

Question

emitrokhin @emitrokhin

Как обеспечить многопользовательскую поддержку в LLM?

Кто сталкивался с concurrent доступом/запросом к текстовой языковой модели? Поясню, что я имею в виду: есть желание обеспечить доступом к текстовой модели нескольким десяткам человек. Какие наборы инструментов это помогут сделать? Из того, чем владею (опыт скромный), это
мак на arm,
llama.cpp,
сервер, что умеет попросить подождать, пока запрос исполняется,
и ui.

Ну с точки зрения сервера вопросов нет - поставит в очередь, и кто надо, дождется ответа. Но вот не могу понять, как в той же llama.cpp запускаться в несколько потоков, чтобы можно было много разных промптов от разных людей в разных контекстах обрабатывать.

Вопрос задан более года назад
540 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Everything_is_bad @Everything_is_bad

ну так просто запусти несколько инстансов и всё

Написано более года назад
emitrokhin @emitrokhin Автор вопроса

Everything_is_bad, да, я такой вариант тоже рассматриваю. Но в случае совсем уж больших моделей работающих в режиме чат бота это будет слишком роскошно

Написано более года назад
# @mindtester

emitrokhin, а доступ readonly? тогда вообще не понятна проблема..
или возможны записи/правки?

Написано более года назад
emitrokhin @emitrokhin Автор вопроса

#, возможно я не совсем понимаю про "только чтение". Моя задача обеспечить многопользовательскую работу в стиле чат бота. Люди через свой фронтенд пишут текст, а сервер собирает запросы и в движок LLM направляет. И у меня в этом моменте возникает непонимание, какие движки могут входящие запросы обрабатывать параллельно, ну то есть например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp

Написано более года назад
# @mindtester

emitrokhin, кхмм.. ну может я тоже не совсем спец в linux...
и возможно не верно отреагировал на LLM..
если файловый (или БД) ресурс, будет иметь конкурентные запросы на запись, то все верно, будет очередь..
если ресурс файловый, то стоит посмотреть в сторону БД.. наверное мне не чего больше сказать. удачи ))

Написано более года назад
Vindicar @Vindicar

#, тут под LLM имеется ввиду Large Language Model (нейросеть а-ля GPT), это вычислительно жоркий ресурс.

Написано более года назад
# @mindtester

Vindicar, аа.. марь иванна.. сори ))
но суть одна:
- только запросы? (тогда к авторам софта)
- есть запросы вносящие изменения? (логика будет как у БД..

Написано более года назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 23 часа назад
- 173 просмотра
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- вчера
- 399 просмотров
2

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 1 подписчик
- 01 окт.
- 373 просмотра
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 93 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 98 просмотров
2

ответа
Искусственный интеллект

Средний
Как обучить нейросеть используя API от DeepSeek/ChatGPT?
- 1 подписчик
- 14 сент.
- 165 просмотров
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 176 просмотров
4

ответа
Обработка изображений

+1 ещё

Средний
Возможен ли сегодня пакетный анализ изображений при помощи ИИ-моделей?
- 1 подписчик
- 02 сент.
- 135 просмотров
3

ответа
Искусственный интеллект

Простой
ChatGPT генерация естественных комментариев / как оживить сайт?
- 1 подписчик
- 28 авг.
- 691 просмотр
2

ответа
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 1 подписчик
- 20 авг.
- 165 просмотров
3

ответа
Показать ещё Загружается…

Golang Engineer в команду Отелло

2GIS

До 550 000 ₽

Руководитель группы разработки удаленно или в офис

IT Force

До 7 000 $

Маркетолог

Logic Telecom • Зеленоград

До 150 000 ₽

ну так просто запусти несколько инстансов и всё
Everything_is_bad, да, я такой вариант тоже рассматриваю. Но в случае совсем уж больших моделей работающих в режиме чат бота это будет слишком роскошно
emitrokhin, а доступ readonly? тогда вообще не понятна проблема..
или возможны записи/правки?
#, возможно я не совсем понимаю про "только чтение". Моя задача обеспечить многопользовательскую работу в стиле чат бота. Люди через свой фронтенд пишут текст, а сервер собирает запросы и в движок LLM направляет. И у меня в этом моменте возникает непонимание, какие движки могут входящие запросы обрабатывать параллельно, ну то есть например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp
emitrokhin, кхмм.. ну может я тоже не совсем спец в linux...
и возможно не верно отреагировал на LLM..
если файловый (или БД) ресурс, будет иметь конкурентные запросы на запись, то все верно, будет очередь..
если ресурс файловый, то стоит посмотреть в сторону БД.. наверное мне не чего больше сказать. удачи ))
#, тут под LLM имеется ввиду Large Language Model (нейросеть а-ля GPT), это вычислительно жоркий ресурс.
Vindicar, аа.. марь иванна.. сори ))
но суть одна:
- только запросы? (тогда к авторам софта)
- есть запросы вносящие изменения? (логика будет как у БД..

Answer 1 · 2024-02-10 15:06:22

Друзья, всем спасибо за ответы. Как мне удалось выяснить, llama.cpp имеет серверный режим, который может обеспечить на одной машине параллельную обработку промптов.

Answer 2 · 2024-02-10 11:37:02

С точки зрения движка LLM есть один ресурс, который нужно делить на всех клиентов, переключаясь с одного на другого по обработке каждого вопроса. Поэтому движок должен уметь получать контекст пользователя, обрабатываемого в данный момент. Получив его, отправить запрос движку, подождать окончания ответа, а затем поставить текущий сеанс на паузу.
Можно доработать схему, работая с пулом доступных движков.

Добавлено

Получив его ...

имеется в виду, веб-приложением.

От движка требуется способность переключаться между сеансами контекстов.

Answer 3 · 2024-02-10 14:19:40

что то вы все всё намудрили, запросы, ридонли, контексты
можешь запустить несколько инстансов - запускай, пусть разгребают очередь
не можешь - запускай один, и пусть он же и разгребает
в чем проблема? тут нет ничего нового, это обыкновенная CLI-программа

например пришло два промпта, и одновременно два и обрабатывается сразу на одной машине. Вот например та же LLaMA.cpp

два инстанса - два промпта, либо настолько быстрая генерация, что кажется, что они выполнились одновременно
нет там никакой алгоритмической магии, просто большой вычислительный ресурс, нет никаких параллельных потоков, любой параллельный поток это просто другой инстанс, оно просто с архитектурной точки зрения не предназначено работать параллельно, это тебе не квантовая суперпозиция

про контексты и сеансы что то Иерокопус Таманский вообще завернул, это вопроса не касается никак и ты в целом простое решение сложными словами описал, не очевидно что бекенд должен куки с сессиями и контекстами разруливать? оно же из формулировки вопроса уже - многопользовательское

вот тебе принципиальная схема на примере чего-то другого. слева - UI, центр - очередь запросов на генерацию, справа - инстансы, слово "matlab" просто мысленно замажь

Как обеспечить многопользовательскую поддержку в LLM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт