Как поместить большую модель на нескольких видеокартах?

Question

ExeLover @ExeLover

Как поместить большую модель на нескольких видеокартах?

Хочу дообучить Llama 3 (70B) (подаю запрос уже второй раз т.к первый отклонен) на своем датасете, но только весит это модель огого. В одну карточку в 80 гигов я не уложу саму модель, что уж там и про датасет говорить. Есть какие-то способы уместить модель + датасет на нескольких карточках?

Вопрос задан 02 мая
223 просмотра

3 комментария

Подписаться 1 Средний 3 комментария

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

ExeLover @ExeLover Автор вопроса

То есть GPT-3 с 175 млрд параметрами квантовали, обучали, разквантовали (или как это называется)? Если бы мне нужно было квантовать модель, то этого вопроса бы и не было.. Вопрос о том как уместить модель на 100 гигабайт на нескольких видеокарточках по 80 (или по 40). Это же не дата параллель, мне нужно не данные разделить, а модель (я хотя и данные тоже желательно)

Написано 03 мая
rPman @rPman

ExeLover, зависит от того зачем ты загружаешь модель в видеокарту, тюнить или только вопросики задавать

второе - llama.cpp

Написано 03 мая
ExeLover @ExeLover Автор вопроса

rPman, тюнить, а потом вопросики задавать. Ну вопросики задавать это потом. Сейчас тюнить

Написано 03 мая
ExeLover @ExeLover Автор вопроса

rPman?

Написано 03 мая
rPman @rPman

у меня почти нет опыта в тюнинге, llama.cpp пока не умеет, а дальше для каждой модели свой код для тюнинга, все используют transformers на python, гугли библиотеки

upd. вот посмотри этот проект
https://github.com/OpenAccess-AI-Collective/axolotl

Написано 03 мая

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+2 ещё

Простой
Какие технологии можно применить при игре лазерной указкой с котиком?
- 2 подписчика
- 7 часов назад
- 52 просмотра
0

ответов
Python

+2 ещё

Средний
Сохранение модели tensorflow?
- 1 подписчик
- вчера
- 2582 просмотра
1

ответ
Python

+2 ещё

Простой
Книги для изучения нейронных сетей на Python?
- 1 подписчик
- вчера
- 95 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Что выбрать за архитектуру LLM для обучения с нуля?
- 1 подписчик
- 18 нояб.
- 92 просмотра
1

ответ
Яндекс

+2 ещё

Простой
По неподтверждённой информации, в нейросети Яндекса YALM-4 около 1.4 миллиардов параметров. В GPT-3 — 130 миллиардов. Насколько этот разрыв радикален?
- 1 подписчик
- 12 нояб.
- 316 просмотров
2

ответа
Нейронные сети

Простой
Выделять барабаны из песни научился, а как теперь их в midi конвертнуть?
- 1 подписчик
- 11 нояб.
- 84 просмотра
2

ответа
Нейронные сети

Средний
Каким образом учить нейросеть(свёртрчную, рекуррентую, трансформер)?
- 1 подписчик
- 08 нояб.
- 83 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Как генерировать усреднённые описания ко всему датасету картинок?
- 3 подписчика
- 07 нояб.
- 74 просмотра
0

ответов
Python

+1 ещё

Простой
VitHybrid не может добавить позиционные эмбеддинги. Что делать?
- 1 подписчик
- 07 нояб.
- 51 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как исправить неправильное обновление весов в реализации back propagation?
- 1 подписчик
- 26 окт.
- 51 просмотр
1

ответ
Показать ещё Загружается…

Преподаватель по нейросетям

CODDY

от 40 000 ₽

Младший аналитик

Сбер • Москва

от 130 000 ₽

Контент-маркетолог

Хекслет

от 60 000 до 100 000 ₽

Сверстать десктоп версию сайта в tailwind

22 нояб. 2024, в 06:06

1500 руб./в час

Создать TG бота

22 нояб. 2024, в 06:04

1 руб./за проект

Тестирование модуля ElasticSearch через ftp

22 нояб. 2024, в 03:54

1500 руб./за проект

я не уложу саму модель

Какой код ошибки ты видишь на экране?
mayton2019, Я вижу что мой второй запрос на доступ к Llama 3 был отклонен. А так по идее должна быть Cuda out of memory т.к я попытаюсь уместить 100 гигов модели на 80 гигов видеокарточки
мой второй запрос на доступ к Llama 3 был отклонен.

Я - пас. Я ХЗ что это такое. Видимо тут стек технологий посложнее.

Answer 1 · 2024-05-02 21:46:04

Требования оперативной памяти к GPT моделям примерно 2x байт от количества параметров (на самом деле сложнее и больше но но начинают говорить именно с этой оценки). Полистай сообщения этого бота на huggingface, вот пример для llama2-70b

float32	256.29 GB
float16	128.15 GB
int8	64.07 GB квантизация
int4	32.04 GB квантизация

Для использовании модели не для ее обучения и тюнинга, более чем достаточно 8битной квантизации, мало того, 6-ти и 5-битная квантизация понижает ее качество на считанные доли процентов (4-бит уже единицы процентов). Шум и галлюцинации слабых моделей значительно выше чем эти различия (например простое перефразирование системного текста или вопроса, без изменения его смысла, изменит результат значительнее).

Если тебе нужно использовать модель на python с помощью tensorflow, бери код с офф страницы модели и используй bitsandbytes. Не подскажу по тому, как раскидать модель по нескольким видеокартам тут, проектов тьма, есть даже те что работают по сети (т.е. не в пределах одной машины) типа petals.

И у тебя есть альтернатива, используй проект llama.cpp, позволяет запускать модель на процессоре (значительно эффективнее чем реализация на tensorflow) и есть поддержка gpu, одновременно нескольких и разных, причем любой, не только nvidia, плюс если vram не хватает, можно оставить часть весов в памяти и досчитывать на процессоре, что все равно эффективнее.

p.s. llama3-70b с помощью llama.cpp я запускал на процессоре с памятью 64Gb, с квантизацией 5bit, примерно 1.4токена в секунду, что все еще быстрее для англоязычных текстов чем пишет большинство людей.

Как поместить большую модель на нескольких видеокартах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт