Задать вопрос
@IA-NE-ROBOT

От чего зависит время ответа модели?

Привет, тестирую vision модели, например Gamma3 и Granite, обе небольшие в районе 3-4 гб. Карта RTX3060, время ответа по картинке 3-4 сек. Никакими настройками в LM studio сократить время не удалось. Что кардинально влияет на скорость модели:

1 структура модели
2 размер
3 скорость GPU
4 пропускная способность VRAM
5 размер картинки (у меня не влияет)
  • Вопрос задан
  • 104 просмотра
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Data Scientist: расширенный курс
    13 месяцев
    Далее
  • Яндекс Практикум
    Инженер машинного обучения
    4 месяца
    Далее
  • Skillfactory
    Профессия Data Scientist
    24 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 2
@rPman
На сколько я знаю lm studio использует llama.cpp а та в свою очередь картинку токенизирует на процессоре, я хз как это изменить

если хватает gpu vram, используйте vllm (не уверен, работает ли сейчас там openai совместимый api с изображениями, когда я пробую самые последние модели, то у меня не получается, но со старыми почему нет) но там кажется не работает квантизация на лету (хотя бы 8бит) и придется искать модели уже квантизованные
Ответ написан
Maksim_64
@Maksim_64
ML Engineer
время ответа по картинке 3-4 сек

1. Если ты что то процессируешь по одному в еденицу времени, то CPU будет быстрее и значительно быстрее чем GPU. При этом если ты процессируешь кусками (batch), то GPU даст буст вплоть до 100 раз. Ты должен даже сформировать правильный размер (batch size), сколько картинок ты даешь за раз. Модель должна принимать массив, с представлениями картинок.

2. В целом свой воркфлоу ты должен делить на CPU bounded, GPU bounded и I/0 (input/output). И оптимизировать, например чтение с диска картинок это I/O операции, которые требуют определенной оптимизации.

По итогу. Сравнение по одной картинке смысла не имеет и на CPU будет быстрее. Сравнивать нужно пайплайн на большом количестве + если не оптимизировать I/O, то система может простаивать, ожидая выполнения медленной операции, например загрузка картинки.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы