Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Question

Владимир @Degot

Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Возможно ли использовать большие LLM модели (LLAMA-405B в частности) на железе на котором даже INT4 не помещается в память?

Вопрос задан более года назад
4162 просмотра

6 комментариев

Подписаться 2 Простой 6 комментариев

Василий Банников @vabka

В теории часть весов можно хранить на диске, но тогда производительность очень сильно просядет

Написано более года назад
d'Ivan @2ord

Нужна довольно веская причина запускать модель на своих мощностях, особенно когда есть сервисы.

Написано более года назад
rPman @rPman

Everything_is_not_so_bad, если есть онлайн сервис, то нет никакого смысла использовать такую тяжёлую и дорогую модель

Llama, имеет смысл для локального использования и дообучения

Написано более года назад
d'Ivan @2ord

Интересно о чем там собираются спрашивать модель. Если лишь для кодинга, то есть альтернативы подешевле.

Написано более года назад
freeExec @freeExec

Everything_is_not_so_bad, например приватность, или это не веская причина?

Написано более года назад
d'Ivan @2ord

freeExec, говорить с ИИ на задушевные темы? Извольте.

Написано более года назад

Решения вопроса 1

7 комментариев

GavriKos @GavriKos

А не дешевле оперативы добавить будет? При условии если мать менять не надо и все остальное железо это поддерживает?

Написано более года назад
rPman @rPman

GavriKos, материнские платы с 256-512гб оперативной памяти это только серверные, оперативная память серверная... это дороже нескольких десктопов раза в 4 (но можно найти БУ).

p.s. найди мне машину с таким объемом памяти за 20т.р.

Написано более года назад
GavriKos @GavriKos

rPman, так вроде же от 128 Гб вы написали. Я не шарю, но мб уже есть матери не серверные с поддержкой 128 Гб. Ну и важно - я же написал только если все остальное железо поддерживает ;-)

Написано более года назад
Aetae @Aetae

GavriKos, не только мать, но и проц, не только поддердживать но и на нормальной скорости... Ещё и чтоб не глючило. С памятью "впритык" в пользовательском сегменте все не очень хорошо.

Написано более года назад
GavriKos @GavriKos

Aetae, не меняет моего вопроса совершенно )))
Если все поддерживает 128 гигов оперативы - не будет ли это дешевле?

Написано более года назад
Aetae @Aetae

GavriKos, ну посчитай сам, если интересно. Нашёл себе онлайн-калькулятор, понимаешь.

Написано более года назад
rPman @rPman

GavriKos, дешевле чем что?

Llama405 требует для работы 256гб ram, лучше больше (512 - без потери качества 8бит квантизация, 1024 - возможность дообучения и тюнинга но на cpu это бессмысленно, так как очень медленно, годами).

Ты можешь собрать необходимы объем памяти на одной машине, (gpu - при наличии десятков миллионов рублей и серых каналов провоза дефицитного железа через таможню).

Десктопное железо можно собрать до 128гб ram, можно у китайцев найти старые чипы и иатеринки как бы серверные но десктоп и собрать очень медленный сервер с 256-512.

По ссылке я дал мой ответ, можно собрать несколько нод (из 3 или лучше 4 компьютеров) и объединить их в сеть, лучше 5-10гбит сетевые карты, без сетевого свитча понадобится по 2 сетевые карты на машину (можно на первой и последней одну сетевую, а вторая из материнки), llama cpp умеет распределять нагрузку между машинами, но эффективнее всего при одновременных нескольких запросах batching (разница в скорости будет до 10 раз)

Написано более года назад

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

C++

+1 ещё

Простой
Какие почитать книги, которые научат составлять алгоритмы?
- 2 подписчика
- 19 сент.
- 407 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 184 просмотра
1

ответ
Искусственный интеллект

Средний
Как обучить нейросеть используя API от DeepSeek/ChatGPT?
- 1 подписчик
- 14 сент.
- 144 просмотра
1

ответ
C++

Простой
Как убрать окошко «Assertion Failed Microsoft Visual C++»?
- 1 подписчик
- 12 сент.
- 62 просмотра
1

ответ
C++

+1 ещё

Простой
Как правильно указать путь к пнг файлу в SFML при работе с Cmake?
- 1 подписчик
- 07 сент.
- 79 просмотров
2

ответа
Обработка изображений

+1 ещё

Средний
Возможен ли сегодня пакетный анализ изображений при помощи ИИ-моделей?
- 1 подписчик
- 02 сент.
- 129 просмотров
3

ответа
C++

Простой
Как легко и просто развернуть curl для проекта С++?
- 1 подписчик
- 30 авг.
- 179 просмотров
2

ответа
Искусственный интеллект

Простой
ChatGPT генерация естественных комментариев / как оживить сайт?
- 1 подписчик
- 28 авг.
- 671 просмотр
3

ответа
C++

Простой
Почему я могу изменять состояние объекта хранящийся в const std::unique_ptr и const std::shared_ptr?
- 1 подписчик
- 21 авг.
- 142 просмотра
1

ответ
C++

+1 ещё

Простой
Это как вообще?
- 1 подписчик
- 20 авг.
- 297 просмотров
1

ответ
Показать ещё Загружается…

Fullstack разработчик (TypeScript+React). Свободный график. Фулл тайм.

Круглый Квадрат

от 350 000 до 450 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

PHP разработчик

IT-hunter

До 6 500 $

В теории часть весов можно хранить на диске, но тогда производительность очень сильно просядет
Нужна довольно веская причина запускать модель на своих мощностях, особенно когда есть сервисы.
Everything_is_not_so_bad, если есть онлайн сервис, то нет никакого смысла использовать такую тяжёлую и дорогую модель

Llama, имеет смысл для локального использования и дообучения
Интересно о чем там собираются спрашивать модель. Если лишь для кодинга, то есть альтернативы подешевле.
Everything_is_not_so_bad, например приватность, или это не веская причина?
freeExec, говорить с ИИ на задушевные темы? Извольте.

Answer 1 · 2024-09-03 12:54:51

Да, уже считал, и это действительно реально, с относительно небольшими затратами (16-20т.р.) если тебя устроит скорость исполнения в 15-30 секунд на токен (на твоем железе llama31-70b на процессоре и 64гб оперативке будет работать токен в 1-1.5 секунд).

Необходимо собрать самый дешевый pcie nvme ssd программный raid0, купив контроллер pcie-x16 3.0 или 4.0 из четырех разъемов nvme либо четыре pcie-4x дешевых 3.0 и закупить самые дешевые nvme ssd диски от 128гб (со скоростями чтения от 2гбайт/сек).

Затем собрать из них raid0 с чередованием (win/linux это поддерживают) и разместить на нем gguf файл. llama.cpp поддерживает загрузку файла с весами с диска, без выделения оперативной памяти (но она нужна на контекстное окно, в зависимости от его размера это будут десятки гигабайт). Файл будет считываться по кругу целиком, по разу на токен, а значит скорость будет определяться именно этим. 2гб/с*4 диска = 8гб/с, 256гб 4бит квантизация будет считываться за 32 секунды.

Есть еще ограничения в скорости исполнения из-за процессора, но по уму, если бы была оперативная память то типовой десктопный процессор работал бы на скорости 15-20 секунд на токен.

Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт