От чего зависит время ответа модели?

Question

IA-NE-ROBOT @IA-NE-ROBOT

Искусственный интеллект

От чего зависит время ответа модели?

Привет, тестирую vision модели, например Gamma3 и Granite, обе небольшие в районе 3-4 гб. Карта RTX3060, время ответа по картинке 3-4 сек. Никакими настройками в LM studio сократить время не удалось. Что кардинально влияет на скорость модели:

1 структура модели
2 размер
3 скорость GPU
4 пропускная способность VRAM
5 размер картинки (у меня не влияет)

Вопрос задан 08 апр.
93 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видео

+1 ещё

Простой
Нейросеть для перевода видео?
- 2 подписчика
- 07 авг.
- 301 просмотр
2

ответа
Дизайн

+4 ещё

Простой
Чем генерировать текстуры материалов?
- 1 подписчик
- 02 авг.
- 141 просмотр
1

ответ
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 224 просмотра
3

ответа
Искусственный интеллект

Простой
Необходим инструмент либо схема (nocode) для поиска решений по доработке химических рецептов продуктов (не пищевых). Необходим пилот, кто сталкивался?
- 1 подписчик
- 14 июл.
- 106 просмотров
0

ответов
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 164 просмотра
2

ответа
Python

+1 ещё

Простой
Как тренировать Yolo, размер датасета, итоговый loss?
- 2 подписчика
- 13 июл.
- 1003 просмотра
2

ответа
Языки программирования

+1 ещё

Средний
Насколько TypeScript, C# и C++ способны заменить Python при разработке искусственного интелекта?
- 1 подписчик
- 12 июл.
- 196 просмотров
3

ответа
Python

+1 ещё

Средний
Как генерировать качественные изображения в stable diffusion используя python?
- 2 подписчика
- 05 июл.
- 441 просмотр
0

ответов
Искусственный интеллект

Простой
PHP+Postgres в Cursor?
- 3 подписчика
- 04 июл.
- 1221 просмотр
1

ответ
Искусственный интеллект

Средний
Как обучить нейросеть на своих данных?
- 2 подписчика
- 21 июн.
- 533 просмотра
1

ответ
Показать ещё Загружается…

С++ developer

КОД ГРИН Инжиниринг • Санкт-Петербург

от 30 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Промпт-инженер/Prompt-инженер

Мособлгаз • Москва

от 250 000 до 300 000 ₽

Answer 1 · 2025-04-08 13:53:11

На сколько я знаю lm studio использует llama.cpp а та в свою очередь картинку токенизирует на процессоре, я хз как это изменить

если хватает gpu vram, используйте vllm (не уверен, работает ли сейчас там openai совместимый api с изображениями, когда я пробую самые последние модели, то у меня не получается, но со старыми почему нет) но там кажется не работает квантизация на лету (хотя бы 8бит) и придется искать модели уже квантизованные

Answer 2 · 2025-04-08 13:36:13

время ответа по картинке 3-4 сек

1. Если ты что то процессируешь по одному в еденицу времени, то CPU будет быстрее и значительно быстрее чем GPU. При этом если ты процессируешь кусками (batch), то GPU даст буст вплоть до 100 раз. Ты должен даже сформировать правильный размер (batch size), сколько картинок ты даешь за раз. Модель должна принимать массив, с представлениями картинок.

2. В целом свой воркфлоу ты должен делить на CPU bounded, GPU bounded и I/0 (input/output). И оптимизировать, например чтение с диска картинок это I/O операции, которые требуют определенной оптимизации.

По итогу. Сравнение по одной картинке смысла не имеет и на CPU будет быстрее. Сравнивать нужно пайплайн на большом количестве + если не оптимизировать I/O, то система может простаивать, ожидая выполнения медленной операции, например загрузка картинки.

От чего зависит время ответа модели?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт