Какую выбрать LLM для быстрого локального запуска?

Question

d00m911 @d00m911

Какую выбрать LLM для быстрого локального запуска?

Конфигурация моего ПК: i9 13900k, 4080 16 Gb VRAM, RAM 128 Gb DDR5.

Подскажите, пожалуйста, какие языковые модели наилучшим образом подходят для:
1) Программирования (желательно, чтобы модель умела писать хоть сколько-нибудь корректный код на C++/Asm.
2) Написание связных текстов (преимущественно, на тему ИТ - чтобы сложно было использовать в качестве локального подсказчика - например, попросить привести перечень WinAPI-функций для решения определённой задачи с комментариями по поводу параметров.

Имею опыт запуска некоторых моделей, например, Wizard Vicuna 30b, Llama 3 8b, Mixtral 8x7b, CodeLlama 34b.

И последнее: возможно, у кого-то есть опыт запуска квантованной LLAMA 3 70b? Какой размер видеопамяти необходим для того, чтобы получать ответы хотя бы за 30-40 секунд (и, соответственно, какую лучше выбрать модель)?

Заранее спасибо за мнения.

Вопрос задан более года назад
413 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- вчера
- 76 просмотров
0

ответов
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 72 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 73 просмотра
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 64 просмотра
0

ответов
VPN

+2 ещё

Средний
Почему ChatGPT не пускает с прокси?
- 1 подписчик
- 05 окт.
- 891 просмотр
2

ответа
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 96 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 79 просмотров
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1326 просмотров
6

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 242 просмотра
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 275 просмотров
3

ответа
Показать ещё Загружается…

DevOps-инженер

DevTeam.Space

от 1 000 до 2 500 $

Senior/Lead PHP Developer

Boomerangme 🎫

от 4 000 до 7 000 $

Системный аналитик

ДАЛЕЕ • Москва

от 200 000 ₽

1) Программирования (желательно, чтобы модель умела писать хоть сколько-нибудь корректный код на C++/Asm.

С таким объёмом памяти - врядли такие есть.

Answer 1 · 2024-06-06 16:38:31

llama3-70b и Codestral 22B единственные открытые сетки, которые давали мне адекватный вариант на не простые задачи (я почти не трогал qwen и command r+ а они тоже хороши).

Чтобы оценить требования памяти в зависимости от размера модели и ее квантизации, полистай сообщения этого бота, например вот для llama70b

p.s. llama.cpp позволит разместить часть весов в GPU а часть в RAM, это имеет смысл если оперативной памяти чуть чуть не хватает, а квантизация уже на грани понижения качества, я так codestral 22b с квантизацией 5bit на 16gb запускал, указав 48 из 57 слоев на gpu с такими скоростями:

llama_print_timings:        load time =    1997,65 ms
llama_print_timings:      sample time =     790,28 ms /   256 runs   (    3,09 ms per token,   323,94 tokens per second)
llama_print_timings: prompt eval time =   21593,29 ms /  7650 tokens (    2,82 ms per token,   354,28 tokens per second)
llama_print_timings:        eval time =   33864,88 ms /   255 runs   (  132,80 ms per token,     7,53 tokens per second)
llama_print_timings:       total time =   55938,24 ms /  7905 tokens

Какую выбрать LLM для быстрого локального запуска?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт