Задать вопрос
Afranius
@Afranius
Из говорящих дольше живут те, что говорят меньше.

Можно ли запустить LLM без GPU?

Наткнулся я тут на статейку, как запустить Большую Языковую Модель (частный случай ChatGPT) локально, у себя дома, да ещё и на Raspberry Pi. Малинок лишних у меня нет, а компы имеются и даже виртуалку могу поднять.
https://ru.wikipedia.org/wiki/Большая_языковая_модель
Стал читать и расстроился: почти все они требуют GPU - видеокарты с памятью от 8 до 24 гигабайт. А я ещё помню, как подбирал забытый пароль к своей аське, используя всего-то GTX580
Но если я пробросом видеокарт в виртуалку заморачиваться не хочу, то можно ли как-то обойтись меньшими усилиями? Можно ли запустить LLM только на CPU и без использования GPU?
Читал, что арендуют за пару сотен килорублей серверы с AMD EPYC - но это явно не наш путь.
https://habr.com/ru/companies/selectel/articles/966356/
Или виртуалка, или физическая железка с какой-нибудь GT710 (TDP 19W 28нм)
Ибо денег на дорогие видюхи нет, а поиграться хоцца.

Кто-то пробовал? Потому что моя майнинг-ферма приказала долго жить, а запасов крутых видюх у меня не имеется...
  • Вопрос задан
  • 269 просмотров
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Нейросети для анализа данных
    9 недель
    Далее
  • Академия Эдюсон
    Mini-MBA: Нейросети для собственников бизнеса
    4 месяца
    Далее
  • Skillbox
    Нейросети. Практический курс
    3 месяца
    Далее
Решения вопроса 2
Lord_of_Rings
@Lord_of_Rings
Northern Strider
В принципе можно. Но все зависит от конкретных задач и желаемого качества.
Если усредненно:
- Так как gpu не будет, то веса будут загружаться в RAM. Соответственно, в среднем потребуется минимум 16ГБ оперативки.
- Проц должен быть не меньше i5 или амдшного аналога, на 4-8 ядер минимум.
- Должно быть хорошее охлаждение.

Ну и может быть что-то сносное получится. Однако скорость генерации будет оооочень медленная. Лично я гонял faster whisper medium на cpu, за час он обрабатывал 20 минутное аудио
Ответ написан
@alexalexes
Можно ли запустить LLM только на CPU и без использования GPU?

За просто, будет работать на чем есть.
curl -fsSL https://ollama.com/install.sh
ollama run llama3

Побаловаться хватит, только о производительности можно забыть.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@rPman
Модели на архитектуре MoE можно запускать исключительно на процессоре, с адекватной скоростью, мало того, есть большой шанс использовать видеокарту для ускорения (причем ее объем может быть маленьким).

Вот статья где используя 196Gb RAM и одну видеокарту 24gb смогли запустить DeepSeek R1 671B (само собой с экстремальной квантизацией), важен факт что это запуск, используя gpu как ускоритель. Это может сработать и на меньших моделях.

Из самых мелких моделей, дающих какой то результат я бы посоветовал qwen3-30b-a3b и вариант qwen3-coder-30b-a3b (последний я даже в openhands агенте указывал и получал какой то заметный результат, но нужно понимаю что это очень слабая модель по сравнению с проприетарными топовыми). Но помним на процессоре будет все же медленно стартовать, по причине очень медленной обработки входящих токенов (у агентов их там десятки тысяч), потом это закешируется но несколько минут придется ждать.

Еще советую посмотреть на gpt-oss-20b от openai.

На процессоре это работает но приходится ждать, но если приобрести 2x 16gb gpu (даже тормозную 4060ti или 5060ti и кстати при использовании llama.cpp т.е. ollama/lmstudio/... можно и amd приобрести, это дешевле но ограничивает используемым софтом, к сожалению софт заточен именно на nvidia) то можно получить очень шуструю локальную машину для простых задач.

p.s. проводил эксперимент, если соединить несколько nvme дисков (чем быстрее чтение тем лучше, подключать на разные контроллеры, а там из объединить в soft raid0) то по деньгам такая машина получится дешевле чем просто набивать машину ram, то можно запускать даже старшие модели прямо с диска (они на каждый токен будут читать весь файл весов модели)... т.е. условно 32гб машина может запустить 200gb веса модель... скорость сами посчитаете из скорости получившегося дискового массива, но есть нюанс, такая модель сможет заметно ускорять батчинг, одновременно запущенные запросы, почти линейно, пока хватает ram на kvcache (неск. гигабайт на контекст для больших моделей и считаные сотни мегабайт для маленьких).

p.p.s. единственный смысл использования локальных моделей - экономия на простых задачах и NDA на данные, иначе лучше купите доступ к api у того же openrouter
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы