Как обучать transformers модели на нескольких gpu?
Пока отвечается мой предыдущий вопрос про deepspeed с одной видеокартой, создам новый про несколько. Нашел очень дешевый хост для обучения сетей, ну и решил попробовать обучить gpt-2 (не обязательно, может, mixtral, например). Так вот, моделька у меня на 6млрд. параметров, ну и обычной A5000 на 24 гига.. здесь, очевидно, не хватит. Мне нужен гайд по обучению моделей torch (я обучаю не через trainer, а стандартным способом, каким обучаются остальные модельки, т.е step, forward, loss, backward...) на нескольких видеокартах, в моем случае на 2-ух A6000, а так же возможно ли (и как) это сделать с deepspeed и имеет ли смысл обучать с ним
Бтв, можно конечно и датапаралел сделать, но у меня может A6000 и не быть, а модель может и не поместится в 12 гигов каждой видеокарты (которые я буду арендовать если стану бомжом после A6000, хотя там дешево все)