Задать вопрос
@ermak148

Как обучать transformers модели на нескольких gpu?

Пока отвечается мой предыдущий вопрос про deepspeed с одной видеокартой, создам новый про несколько. Нашел очень дешевый хост для обучения сетей, ну и решил попробовать обучить gpt-2 (не обязательно, может, mixtral, например). Так вот, моделька у меня на 6млрд. параметров, ну и обычной A5000 на 24 гига.. здесь, очевидно, не хватит. Мне нужен гайд по обучению моделей torch (я обучаю не через trainer, а стандартным способом, каким обучаются остальные модельки, т.е step, forward, loss, backward...) на нескольких видеокартах, в моем случае на 2-ух A6000, а так же возможно ли (и как) это сделать с deepspeed и имеет ли смысл обучать с ним
  • Вопрос задан
  • 441 просмотр
Подписаться 2 Средний 1 комментарий
Помогут разобраться в теме Все курсы
  • Skillfactory
    Курс по нейронным сетям
    10 недель
    Далее
  • Skypro
    Нейросети с 0
    9 месяцев
    Далее
  • Учебный центр IBS
    AI-003 ИИ для бизнес-аналитика: Автоматизация, Оптимизация и Усиление
    1 неделя
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы