Задать вопрос
@IA-NE-ROBOT

От чего зависит время ответа модели?

Привет, тестирую vision модели, например Gamma3 и Granite, обе небольшие в районе 3-4 гб. Карта RTX3060, время ответа по картинке 3-4 сек. Никакими настройками в LM studio сократить время не удалось. Что кардинально влияет на скорость модели:

1 структура модели
2 размер
3 скорость GPU
4 пропускная способность VRAM
5 размер картинки (у меня не влияет)
  • Вопрос задан
  • 69 просмотров
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 2
@rPman
На сколько я знаю lm studio использует llama.cpp а та в свою очередь картинку токенизирует на процессоре, я хз как это изменить

если хватает gpu vram, используйте vllm (не уверен, работает ли сейчас там openai совместимый api с изображениями, когда я пробую самые последние модели, то у меня не получается, но со старыми почему нет) но там кажется не работает квантизация на лету (хотя бы 8бит) и придется искать модели уже квантизованные
Ответ написан
Maksim_64
@Maksim_64
Data Analyst
время ответа по картинке 3-4 сек

1. Если ты что то процессируешь по одному в еденицу времени, то CPU будет быстрее и значительно быстрее чем GPU. При этом если ты процессируешь кусками (batch), то GPU даст буст вплоть до 100 раз. Ты должен даже сформировать правильный размер (batch size), сколько картинок ты даешь за раз. Модель должна принимать массив, с представлениями картинок.

2. В целом свой воркфлоу ты должен делить на CPU bounded, GPU bounded и I/0 (input/output). И оптимизировать, например чтение с диска картинок это I/O операции, которые требуют определенной оптимизации.

По итогу. Сравнение по одной картинке смысла не имеет и на CPU будет быстрее. Сравнивать нужно пайплайн на большом количестве + если не оптимизировать I/O, то система может простаивать, ожидая выполнения медленной операции, например загрузка картинки.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы