@d00m911

Какую выбрать LLM для быстрого локального запуска?

Конфигурация моего ПК: i9 13900k, 4080 16 Gb VRAM, RAM 128 Gb DDR5.

Подскажите, пожалуйста, какие языковые модели наилучшим образом подходят для:
1) Программирования (желательно, чтобы модель умела писать хоть сколько-нибудь корректный код на C++/Asm.
2) Написание связных текстов (преимущественно, на тему ИТ - чтобы сложно было использовать в качестве локального подсказчика - например, попросить привести перечень WinAPI-функций для решения определённой задачи с комментариями по поводу параметров.

Имею опыт запуска некоторых моделей, например, Wizard Vicuna 30b, Llama 3 8b, Mixtral 8x7b, CodeLlama 34b.

И последнее: возможно, у кого-то есть опыт запуска квантованной LLAMA 3 70b? Какой размер видеопамяти необходим для того, чтобы получать ответы хотя бы за 30-40 секунд (и, соответственно, какую лучше выбрать модель)?

Заранее спасибо за мнения.
  • Вопрос задан
  • 174 просмотра
Пригласить эксперта
Ответы на вопрос 2
@janvarev
Предприниматель, Senior Python dev
По коду - можно рекомендовать модели Codestral 22B, Code Qwen 7B (из общих соображений, C++/Asm не тестировал)

По квантованной Ламе и другим моделям - если квантизированный вариант помещается в видеопамять, будет быстро. Если нет, будет медленно.
Ответ написан
Комментировать
@rPman
llama3-70b и Codestral 22B единственные открытые сетки, которые давали мне адекватный вариант на не простые задачи (я почти не трогал qwen и command r+ а они тоже хороши).

Чтобы оценить требования памяти в зависимости от размера модели и ее квантизации, полистай сообщения этого бота, например вот для llama70b

p.s. llama.cpp позволит разместить часть весов в GPU а часть в RAM, это имеет смысл если оперативной памяти чуть чуть не хватает, а квантизация уже на грани понижения качества, я так codestral 22b с квантизацией 5bit на 16gb запускал, указав 48 из 57 слоев на gpu с такими скоростями:
llama_print_timings:        load time =    1997,65 ms
llama_print_timings:      sample time =     790,28 ms /   256 runs   (    3,09 ms per token,   323,94 tokens per second)
llama_print_timings: prompt eval time =   21593,29 ms /  7650 tokens (    2,82 ms per token,   354,28 tokens per second)
llama_print_timings:        eval time =   33864,88 ms /   255 runs   (  132,80 ms per token,     7,53 tokens per second)
llama_print_timings:       total time =   55938,24 ms /  7905 tokens
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы