Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Question

Владимир @Degot

Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Возможно ли использовать большие LLM модели (LLAMA-405B в частности) на железе на котором даже INT4 не помещается в память?

Вопрос задан 03 сент. 2024
4124 просмотра

6 комментариев

Подписаться 2 Простой 6 комментариев

Василий Банников @vabka

В теории часть весов можно хранить на диске, но тогда производительность очень сильно просядет

Написано 03 сент. 2024
d'Ivan @2ord

Нужна довольно веская причина запускать модель на своих мощностях, особенно когда есть сервисы.

Написано 03 сент. 2024
rPman @rPman

Everything_is_not_so_bad, если есть онлайн сервис, то нет никакого смысла использовать такую тяжёлую и дорогую модель

Llama, имеет смысл для локального использования и дообучения

Написано 03 сент. 2024
d'Ivan @2ord

Интересно о чем там собираются спрашивать модель. Если лишь для кодинга, то есть альтернативы подешевле.

Написано 03 сент. 2024
freeExec @freeExec

Everything_is_not_so_bad, например приватность, или это не веская причина?

Написано 03 сент. 2024
d'Ivan @2ord

freeExec, говорить с ИИ на задушевные темы? Извольте.

Написано 03 сент. 2024

Решения вопроса 1

7 комментариев

GavriKos @GavriKos

А не дешевле оперативы добавить будет? При условии если мать менять не надо и все остальное железо это поддерживает?

Написано 03 сент. 2024
rPman @rPman

GavriKos, материнские платы с 256-512гб оперативной памяти это только серверные, оперативная память серверная... это дороже нескольких десктопов раза в 4 (но можно найти БУ).

p.s. найди мне машину с таким объемом памяти за 20т.р.

Написано 03 сент. 2024
GavriKos @GavriKos

rPman, так вроде же от 128 Гб вы написали. Я не шарю, но мб уже есть матери не серверные с поддержкой 128 Гб. Ну и важно - я же написал только если все остальное железо поддерживает ;-)

Написано 03 сент. 2024
Aetae @Aetae

GavriKos, не только мать, но и проц, не только поддердживать но и на нормальной скорости... Ещё и чтоб не глючило. С памятью "впритык" в пользовательском сегменте все не очень хорошо.

Написано 03 сент. 2024
GavriKos @GavriKos

Aetae, не меняет моего вопроса совершенно )))
Если все поддерживает 128 гигов оперативы - не будет ли это дешевле?

Написано 03 сент. 2024
Aetae @Aetae

GavriKos, ну посчитай сам, если интересно. Нашёл себе онлайн-калькулятор, понимаешь.

Написано 03 сент. 2024
rPman @rPman

GavriKos, дешевле чем что?

Llama405 требует для работы 256гб ram, лучше больше (512 - без потери качества 8бит квантизация, 1024 - возможность дообучения и тюнинга но на cpu это бессмысленно, так как очень медленно, годами).

Ты можешь собрать необходимы объем памяти на одной машине, (gpu - при наличии десятков миллионов рублей и серых каналов провоза дефицитного железа через таможню).

Десктопное железо можно собрать до 128гб ram, можно у китайцев найти старые чипы и иатеринки как бы серверные но десктоп и собрать очень медленный сервер с 256-512.

По ссылке я дал мой ответ, можно собрать несколько нод (из 3 или лучше 4 компьютеров) и объединить их в сеть, лучше 5-10гбит сетевые карты, без сетевого свитча понадобится по 2 сетевые карты на машину (можно на первой и последней одну сетевую, а вторая из материнки), llama cpp умеет распределять нагрузку между машинами, но эффективнее всего при одновременных нескольких запросах batching (разница в скорости будет до 10 раз)

Написано 04 сент. 2024

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

C++

+2 ещё

Простой
TCP Fingerprint TIMESTAMP не задается никакое значение, кроме 0, как исправить?
- 2 подписчика
- вчера
- 64 просмотра
0

ответов
C++

+1 ещё

Простой
Как сделать меш в дочерний объект игрока?
- 1 подписчик
- вчера
- 32 просмотра
0

ответов
C++

Простой
Почему выдается неправильный результат при операциях c long int в Си?
- 1 подписчик
- вчера
- 59 просмотров
1

ответ
Linux

+2 ещё

Простой
Почему clang не видит стандартные библиотеки c++?
- 1 подписчик
- 11 янв.
- 132 просмотра
1

ответ
C++

+2 ещё

Простой
Как использовать C++ с FASM?
- 1 подписчик
- 10 янв.
- 96 просмотров
1

ответ
Искусственный интеллект

Простой
Как использовать Windsurf IDE в России?
- 1 подписчик
- 10 янв.
- 70 просмотров
3

ответа
C++

Простой
C++ iostream not found?
- 1 подписчик
- 09 янв.
- 114 просмотров
1

ответ
C++

Средний
Может ли Cheat Engine выполнить данные действия (в описании топика)?
- 2 подписчика
- 09 янв.
- 174 просмотра
1

ответ
C++

Простой
Почему программа не работает?
- 1 подписчик
- 08 янв.
- 115 просмотров
2

ответа
Искусственный интеллект

Простой
Как сделать так, чтобы Алиса брала ответы на мои вопросы из внешнего источника?
- 1 подписчик
- 07 янв.
- 113 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик 1С

ТаймЛизинг • Владивосток

от 80 000 ₽

Ведущий системный аналитик

Сбер • Москва

от 240 000 ₽

DevOps Engineer / SRE 🔥

Fundraise Up

от 3 900 до 6 500 $

Настройка пропускной системы для предприятия (CV)

15 янв. 2025, в 00:18

100000 руб./за проект

Разработка мобильного приложения для заказа такси

14 янв. 2025, в 23:49

50000 руб./за проект

Сделать доработку существующего сайта на MODX: давидамастер.рф

14 янв. 2025, в 22:30

1500 руб./за проект

В теории часть весов можно хранить на диске, но тогда производительность очень сильно просядет
Нужна довольно веская причина запускать модель на своих мощностях, особенно когда есть сервисы.
Everything_is_not_so_bad, если есть онлайн сервис, то нет никакого смысла использовать такую тяжёлую и дорогую модель

Llama, имеет смысл для локального использования и дообучения
Интересно о чем там собираются спрашивать модель. Если лишь для кодинга, то есть альтернативы подешевле.
Everything_is_not_so_bad, например приватность, или это не веская причина?
freeExec, говорить с ИИ на задушевные темы? Извольте.

Answer 1 · 2024-09-03 12:54:51

Да, уже считал, и это действительно реально, с относительно небольшими затратами (16-20т.р.) если тебя устроит скорость исполнения в 15-30 секунд на токен (на твоем железе llama31-70b на процессоре и 64гб оперативке будет работать токен в 1-1.5 секунд).

Необходимо собрать самый дешевый pcie nvme ssd программный raid0, купив контроллер pcie-x16 3.0 или 4.0 из четырех разъемов nvme либо четыре pcie-4x дешевых 3.0 и закупить самые дешевые nvme ssd диски от 128гб (со скоростями чтения от 2гбайт/сек).

Затем собрать из них raid0 с чередованием (win/linux это поддерживают) и разместить на нем gguf файл. llama.cpp поддерживает загрузку файла с весами с диска, без выделения оперативной памяти (но она нужна на контекстное окно, в зависимости от его размера это будут десятки гигабайт). Файл будет считываться по кругу целиком, по разу на токен, а значит скорость будет определяться именно этим. 2гб/с*4 диска = 8гб/с, 256гб 4бит квантизация будет считываться за 32 секунды.

Есть еще ограничения в скорости исполнения из-за процессора, но по уму, если бы была оперативная память то типовой десктопный процессор работал бы на скорости 15-20 секунд на токен.

Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт