@ermak148

Как обучать transformers модели на нескольких gpu?

Пока отвечается мой предыдущий вопрос про deepspeed с одной видеокартой, создам новый про несколько. Нашел очень дешевый хост для обучения сетей, ну и решил попробовать обучить gpt-2 (не обязательно, может, mixtral, например). Так вот, моделька у меня на 6млрд. параметров, ну и обычной A5000 на 24 гига.. здесь, очевидно, не хватит. Мне нужен гайд по обучению моделей torch (я обучаю не через trainer, а стандартным способом, каким обучаются остальные модельки, т.е step, forward, loss, backward...) на нескольких видеокартах, в моем случае на 2-ух A6000, а так же возможно ли (и как) это сделать с deepspeed и имеет ли смысл обучать с ним
  • Вопрос задан
  • 245 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы