Тестировав
этот пример на pycuda, наблюдается рост погрешности с ростом размера матрицы (что теоретически логично, т.к. складывается большее кол-во float'ов).
т.е. np.allclose(c_cpu, c_gpu.get()) выдаёт false.
хотя я не понял это ограничение
40 # define the (square) matrix size
41 # note that we'll only use *one* block of threads here
42 # as a consequence this number (squared) can't exceed max_threads,
43 # see documen.tician.de/pycuda/util.html#pycuda.tools.De...
44 # for more information on how to get this number for your device
45 MATRIX_SIZE = 2
related :
stackoverflow.com/questions/4104010/cuda-float-poi...