Задать вопрос
@Agatnet

Какое железо подобрать для локального тестирования LLM (ChatGPT На ПК)?

Хочу попробовать погонять различные языковые модели, которые позволяют это делать на локальной машине.
Оговорки:
1. Чисто из любопытства. Конкретной цели нет. Но может и появится в процессе.
2. Не в теме LLM. Информация только из обзорных статей. (читаю регулярно).
3. В железе разбираюсь на уровне - знаю что и для чего. Когда дело касается тонкостей и нюансов - я чайник.
=====
Как я вижу подбор для себя.
- выбор платформы (синяя, красная)
- выбор матери по параметру максимально поддерживаемый объём памяти (64 , 128 , 256 gb ?)
- выбор процессора.
- подпункт (новое/б.у./устаревшее) - цель максимальная минимизация фин затрат
=====
В общем, цель - собрать комп с объёмом памяти необходимым для запуска LLM, с возможностью наращивания этой памяти по мере необходимости. Без ненужных переплат. Актуальность машины на год-два вперёд. Далее - или откажусь от этой идеи, или, уже разбираясь в теме, перейду на что-то другое.
Заранее спасибо за советы и наводки.
  • Вопрос задан
  • 211 просмотров
Подписаться 2 Простой 6 комментариев
Пригласить эксперта
Ответы на вопрос 2
@historydev
Редактирую файлы с непонятными расширениями
Вот что говорит гпт про минималки:
GPU: NVIDIA RTX 2060 (6+ ГБ VRAM для небольших моделей, лучше 12+ ГБ).
CPU: Любой современный многоядерный (например, Ryzen 5 или i5).
RAM: 16 ГБ.
SSD: 500 ГБ (для весов моделей и данных).


Но на практике, мои попытки завести какую-то нейронку которая генерирует вменяемый выход, закончились ~10 минутами на запрос с 4090 и i9.
Ответ написан
@rPman
Есть два направления в приложениях инференса (запуск нейронки для получения ответа но не обучение и тюнинг) и соответственно для каждого свои минимальные требования к железу.

По умолчанию, каждая открытая модель, доступная для локального запуск, поставляются с проектом с исходниками и подробными инструкциями по их запуску, для самых новых и топовых решений это обычно единственный способ. Для этого решения требования к железу самые высокие, а именно, много оперативной памяти gpu, на одной материнской плате. Обычно это по одному байту на вес сети (8бит квантизация) плюс память на размер контекстного окна, размера вопроса и ответа (зависит от модели, от 2гб до десятков), например llama70b будет требовать 70гб+ещё 10гб+-.). Я покупал nvidia 4060ti 16gb vram, у них самая дешёвая память за гигабайт и работает достаточно быстро именно для нейронок (она дешёвая потому что для геймеров тормозная).

Некоторые (многие, даже топовые, с задержкой в месяц) появляются в llama.cpp или основную на ней ollama, которая очень эффективно работает без видеокарты и даже если оперативной памяти видеокарты чуть чуть не хватает. Я запускал lllama70b на 64гб обычной ram, 5бит квантизация, скорость 1.5токена в секунду... Всякие 8б летают но они глупые.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы