если модель запускаешь с помощью vllm то можно увидеть такую строчку в логах:
INFO 03-31 09:31:34 [config.py:588] This model supports multiple tasks: {'score', 'classify', 'embed', 'generate', 'reward'}. Defaulting to 'generate'.
тогда в запросах будет доступен режим
classification но мне кажется такое будет работать только для хороших моделей или лучше специально тюненых на это действие (т.е. собрать датасет примеров и дотюнить модель именно на классификацию), набор утилит и библиотек для этого
peft
upd. архитектура открытой gigachat - DeepseekForCausalLM и vllm показывает этот режим но мне пока не удалось запустить последнюю модель локально
Еще есть режим structured outputs (это фича приложения, с помощью которого запускается модель или соответственно провайдера), в этом случае можно прописать в формате допустимые значения, но на практике, тупое ограничение модели в формате вывода понижает ее качество, неплохо было бы разрешить модели некоторую свободу для поболтать, оставив поля для этого.
например есть у
llama.cpp и у
vllm
Хорошим бустом для качества модели будет приведение примеров (порядка 5 штук) сразу после системного промпта (вместе с токенами ассистент/пользователь), это позволяет модели настроиться на нужную тематику и формат вывода (отличным примером является системный промпт последней mistral3, там пара примеров размещена, причем сильно тупых, скорее всего это разработчики vllm в шаблоне оставили)