Тестировав 
этот пример на pycuda, наблюдается рост погрешности с ростом размера матрицы (что теоретически логично, т.к. складывается большее кол-во float'ов).
т.е. np.allclose(c_cpu, c_gpu.get()) выдаёт false.
хотя я не понял это ограничение
 40 # define the (square) matrix size
  41 #  note that we'll only use *one* block of threads here
  42 #  as a consequence this number (squared) can't exceed max_threads,
  43 #  see documen.tician.de/pycuda/util.html#pycuda.tools.De...
  44 #  for more information on how to get this number for your device
  45 MATRIX_SIZE = 2
related : 
stackoverflow.com/questions/4104010/cuda-float-poi...