Вообщем проблема такова.
Есть банальный код
****
double time = MPI_Wtime();
cudaMemcpy(*****)
cout << " time = " << MPI_Wtime() - time << endl;
Компилирую nvcc с mpicxx -fopenmp
Устанавливаю переменную OMP_NUM_THREADS = 1
Замерил время.
Далее Устанавливаю переменную OMP_NUM_THREADS = 2
Замерил время, стало хуже.
Даже попробовал перед cudaMemcpy написать omp_set_num_treads(1) -> Не помогло время такое же....
И так далее, чем больше ставлю OMP_NUM_THREADS тем дольше получается в time...
А также я использую в некоторых местах кода вызовы cublas, cusparse, и заметил, что они тоже замедляются...
Кто-нибудь может знать причину или сталкивались с этим?