Можно ли запустить LLM без GPU?

Question

Сергей Сахаров @Afranius

Из говорящих дольше живут те, что говорят меньше.

Нейронные сети

Можно ли запустить LLM без GPU?

Наткнулся я тут на статейку, как запустить Большую Языковую Модель (частный случай ChatGPT) локально, у себя дома, да ещё и на Raspberry Pi. Малинок лишних у меня нет, а компы имеются и даже виртуалку могу поднять.
https://ru.wikipedia.org/wiki/Большая_языковая_модель
Стал читать и расстроился: почти все они требуют GPU - видеокарты с памятью от 8 до 24 гигабайт. А я ещё помню, как подбирал забытый пароль к своей аське, используя всего-то GTX580
Но если я пробросом видеокарт в виртуалку заморачиваться не хочу, то можно ли как-то обойтись меньшими усилиями? Можно ли запустить LLM только на CPU и без использования GPU?
Читал, что арендуют за пару сотен килорублей серверы с AMD EPYC - но это явно не наш путь.
https://habr.com/ru/companies/selectel/articles/966356/
Или виртуалка, или физическая железка с какой-нибудь GT710 (TDP 19W 28нм)
Ибо денег на дорогие видюхи нет, а поиграться хоцца.

Кто-то пробовал? Потому что моя майнинг-ферма приказала долго жить, а запасов крутых видюх у меня не имеется...

Вопрос задан 25 февр.
436 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
karpov.courses

Нейросети для работы

1 месяц

Далее

Решения вопроса 2

2 комментария

8 комментариев

Сергей Сахаров @Afranius Автор вопроса

Настроить пока не получается - ollama serve висит
Возможно подождать надо?

Написано 26 февр.
d'Ivan @2ord

Сергей Сахаров,
ollama работает как systemd сервис и это проверяется через sudo systemctl status ollama.service
ollama serve нужно остановить.

Написано 26 февр.
Сергей Сахаров @Afranius Автор вопроса

не находит ollama в службах и в установленном ПО

Но каталог /usr/local/lib/ollama есть, хотя в нём ещё две подпапки с cuda

Написано 26 февр.
Сергей Сахаров @Afranius Автор вопроса

Сходил, почитал, установил - не работает.

ну и работу с консолью показывай всегда текстом, а не картинками.
Пробовал - тогда находятся альтернативно одарённые, которые спрашивают, что это за хрень и откуда она.
P. S. Писал ночью, хотел спать. С утра встал, открыл поисковик и нашёл решение.
Запустил ollama как сервис.

А ты, если бы сам не был беспомощным, не прокачивал бы своё ЧСВ за счёт других.
Твой показной снобизм говорит только о твоей неуверенности в себе.

Написано 27 февр.
Сергей Сахаров @Afranius Автор вопроса

alexalexes благодарю! Хорошо, конечно... но мало.
Чувствую, самому придётся написать статью - гайд по запуску.
Хотя бы как памятку-склерозник для себя самого.

Суть вкратце:
1. Ставим ollama
2. Заводим пользователя ollama с правами ollana
3. создаётся папка .ollama с ключами.
4. Подмонтируем другой диск для моделей, создаём путь для моделей и выставляем права.
Так же выставляем права на папку с ключами.
5. Создаём сервис ollama и пробуем его запустить. Смотрим логи, устраняем ошибки.
6. После запуска сервиса скачиваем и устанавливаем нужные модели.
7. Запускаем нужную модель...

теперь пытаюсь наладить диалоговый режим...
5.

Написано 27 февр.
alexalexes @alexalexes

Сергей Сахаров, можете опубликовать свой ответ.
Обычно, на попробовать в режиме суперпользователя не бывает сложностей поставить ollama.
Если у вас специфическое окружение в ОС, то и решение будет нестандартное.

Написано 27 февр.
Сергей Сахаров @Afranius Автор вопроса

alexalexes, я же говорю - у меня стандартный debian trixie amd64
8 cpu 12 гиг оперативы и ничего специфического

Встать-то оно встало, но как сервис не запустилось.
Сейчас всё поднялось, только диалогового чата не хватает

P.S. Удалось поднять ollama-chat
Написал "Привет"
Подумав, ответило:
"Привет"是英语中常用的一个问候语，意为“Hello”或“Hi”。它通常用于礼貌和友好的交流中。如果你有其他问题或需要进一步的帮助，请随时告诉我！
Сунул в переводчик
«Привет» — это распространённое английское приветствие, означающее «Здравствуйте» или «Привет». Оно обычно используется в вежливых и дружелюбных разговорах. Если у вас возникнут дополнительные вопросы или потребуется помощь, пожалуйста, не стесняйтесь обращаться ко мне!

Как бы теперь заставить его общаться на русском, а не на китайском.
Но в целом можно считать, что результат уже есть

Написано 27 февр.
Сергей Сахаров @Afranius Автор вопроса

alexalexes поставил ollama-chat а ещё для chrome есть расширение Page Assist
Теперь пробую разные модели и их возможности.

Спасибо, вопрос решён!

Написано 27 февр.

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

Сергей Сахаров @Afranius Автор вопроса

Зачем что-то покупать? Некоторые и бесплатно доступ предоставляют.

потом это закешируется но несколько минут придется ждать
Вот вообще не страшно. Интересно это запустить локально - то есть не используя чьё-то облако.
А уж как использовать... Привязать к чату Ansible например - и делать плейбуки для разных ОС.

Как использовать - в принципе найдётся. Хочется пощупать, как это работает у СЕБЯ дома, а не у кого-то в ДЦ. Помню, раньше интернет-кафе были популярными - можно было прийти и по сети поиграть в игрушку, которая дома даже не запускалась...

Написано 26 февр.
rPman @rPman

Младшие модели тупые, повторяйте как мантру.
Бесплатное - это ознакомительное, ничего адекватное с ними не сделаешь.
Вам нужен доступ к api, только с ним можно делать что то больше чем чатиться в окошке, а вот api бесплатным не бывает (или не на долго).

Начальная машина для дома, на которой можно БЫСТРО запускать qwen30b обойдется в 200т.р. (может можно сэкономить до 150т.р, нужно считать), за эти деньги можно купить доступа на годы непрерывной работы такой слабой же модели, но кто будет в здравом уме использовать слабую нейронку за деньги? один вопрос-ответ gpt5.2 обходится в доли цента... беседа в пару центов.

Написано 26 февр.
Сергей Сахаров @Afranius Автор вопроса

rPman, у меня цель - не инструмент для работы, а понимание, что это и как работает.
Да и нет у меня 200 тысяч.

Написано 27 февр.
rPman @rPman

слово 'как' в вашей цели - ключевое, раскройте что именно.

Как происходит обучение - одно, как работает инференс - другое, как пользоваться моделями - третье, как организуют работу с агентами - четвертое,.. и по каждому варианту свои способы достижения понимания, где то больше теории, где то практики,..

Написано 27 февр.
Сергей Сахаров @Afranius Автор вопроса

Для начала хочу поднять простой текстовый чат "вопрос - ответ".
Пока запустил сервис ollama и установил две модели deepseek
использую deepseek-r1:1.5b

Я так понимаю, можно общаться в консоли или через веб-интерфейс.
Пока разбираюсь как именно.

С обучением чуть позднее...

Написано 27 февр.
Евгений Жмеренко @jeremy1984

Еще советую посмотреть на gpt-oss-20b от openai.

https://habr.com/ru/articles/974748/

Написано 02 мар.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 238 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 331 просмотр
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 214 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 179 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1073 просмотра
8

ответов
Нейронные сети

+1 ещё

Простой
Можно ли настроить диалог с нейросетью как диалог с персонажем с заданными характеристиками?
- 2 подписчика
- 02 мар.
- 310 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Какую нейронку с API и web поиском можете посоветовать?
- 1 подписчик
- 01 мар.
- 159 просмотров
1

ответ
Видео

+1 ещё

Простой
Существует ли хоть одна адекватная нейронка для создания видео 10-20 сек?
- 1 подписчик
- 16 февр.
- 417 просмотров
2

ответа
Боты

+2 ещё

Простой
Как автоматизировать общение с рекрутером?
- 1 подписчик
- 25 янв.
- 287 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2026-02-25 23:45:54

В принципе можно. Но все зависит от конкретных задач и желаемого качества.
Если усредненно:
- Так как gpu не будет, то веса будут загружаться в RAM. Соответственно, в среднем потребуется минимум 16ГБ оперативки.
- Проц должен быть не меньше i5 или амдшного аналога, на 4-8 ядер минимум.
- Должно быть хорошее охлаждение.

Ну и может быть что-то сносное получится. Однако скорость генерации будет оооочень медленная. Лично я гонял faster whisper medium на cpu, за час он обрабатывал 20 минутное аудио

Answer 2 · 2026-02-26 07:41:20

Можно ли запустить LLM только на CPU и без использования GPU?

За просто, будет работать на чем есть.

curl -fsSL https://ollama.com/install.sh
ollama run llama3

Побаловаться хватит, только о производительности можно забыть.

Answer 3 · 2026-02-26 09:48:32

Модели на архитектуре MoE можно запускать исключительно на процессоре, с адекватной скоростью, мало того, есть большой шанс использовать видеокарту для ускорения (причем ее объем может быть маленьким).

Вот статья где используя 196Gb RAM и одну видеокарту 24gb смогли запустить DeepSeek R1 671B (само собой с экстремальной квантизацией), важен факт что это запуск, используя gpu как ускоритель. Это может сработать и на меньших моделях.

Из самых мелких моделей, дающих какой то результат я бы посоветовал qwen3-30b-a3b и вариант qwen3-coder-30b-a3b (последний я даже в openhands агенте указывал и получал какой то заметный результат, но нужно понимаю что это очень слабая модель по сравнению с проприетарными топовыми). Но помним на процессоре будет все же медленно стартовать, по причине очень медленной обработки входящих токенов (у агентов их там десятки тысяч), потом это закешируется но несколько минут придется ждать.

Еще советую посмотреть на gpt-oss-20b от openai.

На процессоре это работает но приходится ждать, но если приобрести 2x 16gb gpu (даже тормозную 4060ti или 5060ti и кстати при использовании llama.cpp т.е. ollama/lmstudio/... можно и amd приобрести, это дешевле но ограничивает используемым софтом, к сожалению софт заточен именно на nvidia) то можно получить очень шуструю локальную машину для простых задач.

p.s. проводил эксперимент, если соединить несколько nvme дисков (чем быстрее чтение тем лучше, подключать на разные контроллеры, а там из объединить в soft raid0) то по деньгам такая машина получится дешевле чем просто набивать машину ram, то можно запускать даже старшие модели прямо с диска (они на каждый токен будут читать весь файл весов модели)... т.е. условно 32гб машина может запустить 200gb веса модель... скорость сами посчитаете из скорости получившегося дискового массива, но есть нюанс, такая модель сможет заметно ускорять батчинг, одновременно запущенные запросы, почти линейно, пока хватает ram на kvcache (неск. гигабайт на контекст для больших моделей и считаные сотни мегабайт для маленьких).

p.p.s. единственный смысл использования локальных моделей - экономия на простых задачах и NDA на данные, иначе лучше купите доступ к api у того же openrouter

Можно ли запустить LLM без GPU?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт