Как сделать так, чтобы nvidia a100 заработала в yandex cloud с драйвером 535 и cuda 12.2?

Мне нужна машина с A100 и cuda 12.2, но образы оптимизированные под a100 в яндексе имеют cuda 11.8. А образы с 12.2 просто словно не поддерживают A100. Один из образов имеет vgpu16 software, что действительно не поддерживает a100. Но я не понимаю, почему в datasphere с cuda 12.2 и драйвером 535 A100 работает и torch видит gpu.

Я также попробовал взять ubuntu 20.04 без nvidia, и установить cuda 12.1, который установил драйвер 530. Попробовал cuda 12.1, потому что vgpu15 software, единственное, которое поддерживает a100 имеет cuda 12.1.

Я так понимаю, главная проблема заключается в том, что это виртуальные gpu, и есть какая-то прослойка на стороне яндекса, и поэтому с ними нужно работать иначе.

Но, остается не ясно, как в некоторых облаках используется cuda 12.3 и выше с виртуальной A100, если поддерживается 12.1

Если вы сталкивались с похожей проблемой, и у вам удалось ее решить, буду очень благодарен, если поделитесь, как с этим справиться.

Небольшая пометка - Нужна cuda 12.2 для работы с tensorrt-llm.
  • Вопрос задан
  • 213 просмотров
Пригласить эксперта
Ответы на вопрос 1
@rPman
У меня только один вопрос, пробовал ли ты устанавливать необходимые версии софта в docker?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы