Какую выбрать LLM для быстрого локального запуска?

Question

d00m911 @d00m911

Какую выбрать LLM для быстрого локального запуска?

Конфигурация моего ПК: i9 13900k, 4080 16 Gb VRAM, RAM 128 Gb DDR5.

Подскажите, пожалуйста, какие языковые модели наилучшим образом подходят для:
1) Программирования (желательно, чтобы модель умела писать хоть сколько-нибудь корректный код на C++/Asm.
2) Написание связных текстов (преимущественно, на тему ИТ - чтобы сложно было использовать в качестве локального подсказчика - например, попросить привести перечень WinAPI-функций для решения определённой задачи с комментариями по поводу параметров.

Имею опыт запуска некоторых моделей, например, Wizard Vicuna 30b, Llama 3 8b, Mixtral 8x7b, CodeLlama 34b.

И последнее: возможно, у кого-то есть опыт запуска квантованной LLAMA 3 70b? Какой размер видеопамяти необходим для того, чтобы получать ответы хотя бы за 30-40 секунд (и, соответственно, какую лучше выбрать модель)?

Заранее спасибо за мнения.

Вопрос задан более года назад
364 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Android

+2 ещё

Средний
Как отвязать устройство от ChatGPT?
- 2 подписчика
- 07 июн.
- 467 просмотров
2

ответа
Нейронные сети

Простой
Нейросеть на ПК для обработки книжной литературы с последующей выдачей ответов по запросам?
- 1 подписчик
- 28 мая
- 166 просмотров
4

ответа
Arduino

+1 ещё

Средний
Сможет ли нейросеть написать скетч для Arduino mini мультиплексор нескольких COM портов в один?
- 2 подписчика
- 26 мая
- 262 просмотра
1

ответ
Python

+1 ещё

Средний
Как разработать нейросеть для антиспуфинга (Face-antispoofing)?
- 1 подписчик
- 24 мая
- 168 просмотров
0

ответов
Нейронные сети

Простой
В какой нейросети можно делать видеофильмы?
- 1 подписчик
- 22 мая
- 187 просмотров
2

ответа
Нейронные сети

Простой
Как сделать чтобы Grok2 была доступной на бесплатном аккаунте?
- 1 подписчик
- 21 мая
- 162 просмотра
0

ответов
Нейронные сети

Простой
Локальные нейросети для автоматизации. Что лучше использовать?
- 6 подписчиков
- 18 мая
- 4307 просмотров
2

ответа
WordPress

+2 ещё

Средний
Можно ли развернуть многошаговую ИИ-генерацию контента на WP?
- 1 подписчик
- 16 мая
- 273 просмотра
2

ответа
Нейронные сети

Простой
Где скачать TinySD для 32-бит Windows?
- 1 подписчик
- 11 мая
- 147 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Какая нейросеть умеет в дизайн?
- 1 подписчик
- 04 мая
- 224 просмотра
2

ответа
Показать ещё Загружается…

Разработчик CV

БИОРГ • Москва

от 140 000 ₽

Инженер эксплуатации сети/Начинающий специалист

beeline • Владивосток

от 70 000 ₽

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

1) Программирования (желательно, чтобы модель умела писать хоть сколько-нибудь корректный код на C++/Asm.

С таким объёмом памяти - врядли такие есть.

Answer 1 · 2024-06-06 16:38:31

llama3-70b и Codestral 22B единственные открытые сетки, которые давали мне адекватный вариант на не простые задачи (я почти не трогал qwen и command r+ а они тоже хороши).

Чтобы оценить требования памяти в зависимости от размера модели и ее квантизации, полистай сообщения этого бота, например вот для llama70b

p.s. llama.cpp позволит разместить часть весов в GPU а часть в RAM, это имеет смысл если оперативной памяти чуть чуть не хватает, а квантизация уже на грани понижения качества, я так codestral 22b с квантизацией 5bit на 16gb запускал, указав 48 из 57 слоев на gpu с такими скоростями:

llama_print_timings:        load time =    1997,65 ms
llama_print_timings:      sample time =     790,28 ms /   256 runs   (    3,09 ms per token,   323,94 tokens per second)
llama_print_timings: prompt eval time =   21593,29 ms /  7650 tokens (    2,82 ms per token,   354,28 tokens per second)
llama_print_timings:        eval time =   33864,88 ms /   255 runs   (  132,80 ms per token,     7,53 tokens per second)
llama_print_timings:       total time =   55938,24 ms /  7905 tokens

Какую выбрать LLM для быстрого локального запуска?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт