Как сделать так, чтобы nvidia a100 заработала в yandex cloud с драйвером 535 и cuda 12.2?
Мне нужна машина с A100 и cuda 12.2, но образы оптимизированные под a100 в яндексе имеют cuda 11.8. А образы с 12.2 просто словно не поддерживают A100. Один из образов имеет vgpu16 software, что действительно не поддерживает a100. Но я не понимаю, почему в datasphere с cuda 12.2 и драйвером 535 A100 работает и torch видит gpu.
Я также попробовал взять ubuntu 20.04 без nvidia, и установить cuda 12.1, который установил драйвер 530. Попробовал cuda 12.1, потому что vgpu15 software, единственное, которое поддерживает a100 имеет cuda 12.1.
Я так понимаю, главная проблема заключается в том, что это виртуальные gpu, и есть какая-то прослойка на стороне яндекса, и поэтому с ними нужно работать иначе.
Но, остается не ясно, как в некоторых облаках используется cuda 12.3 и выше с виртуальной A100, если поддерживается 12.1
Если вы сталкивались с похожей проблемой, и у вам удалось ее решить, буду очень благодарен, если поделитесь, как с этим справиться.
Небольшая пометка - Нужна cuda 12.2 для работы с tensorrt-llm.
rPman, Смотрите, дело не в докере. Дело в образе самой машины, то как она настроенна. Pytorch не видит gpu и если его установать в venv, и глобально на машине. И это делается не в докере