Зависит от конфигурации ядра вашего приложения. Естественно при определенных конфигурациях ядра (размер гридов, блоков и т.д.) за счет увеличения количества потоковых процессоров увеличится количество пулов потоков которые могут выполняться одновременно.
Что до разницы в версии CUDA... Там есть кучи нюансов связанные с синхронизацией потоков, работа с глобальной памятью, точностью вычислений и т.д.
Из доступной информации, есть официальные гайды. Там приводится вот такая вот табличка: