Привет, в Lm studio пользуюсь 2 моделями со зрением - LLava и Gemma. Обе работают корректно.
Далее, делаю json запрос на сервер Lm studio - текст проходит без проблем, обе модельки отвечают корректно.
Далее, в запрос вставлюя картинку, перекодированную в base64 - ответы бредовые. Пробую текст+ссылку на инет картинку - ответы бредовые, абсолютно не то. Точнее моделька отвечает, что давай рассмотрим картинку, повторяет ссылку, а описание гальюнское. Та же картинка в чатике распознается на ура.
Запросы делал на шарпе, потом попробовал на питухоне пример из доков студии - там вообще ошибка, модельки не отвечают.
Как победить?
model = "local-model",
messages = "[{\"role\":\"user\", \"content\":\"describe image: \"}]"
};
Вот кусок,сам base64 я обрезал для наглядности. Повторюсь, что для чисто текстового промта все работало. Может длинный base64 при запросе где-то обрезается на лету и модельки бредят?
там для изображения должен быть отдельный элемент json, а у тебя в примере base64 прямо как текст запроса идет, естественно модель его не понимает
но я погуглил, кажется openai api у llama.cpp сервера не поддерживает его, я лично работал напрямую из командной строки, запуская llama-qwen2vl-cli (использовал qwen2vl), изображение в этом случае подставляется одно на старте контекста
rPman, генерю в шарпе питоновый скрипт, запускаю его и читаю ответ. В питоне либа от лмстудио, она с рисунками работает.
Извращение, конечно, но пока так