Нельзя вызвать ядро __global__ функцию на GPU, только на CPU можно. (Хотя может существовать какой-то способ, который я не знаю, но в книге по CUDA нельзя)
Вы можете данные нужные в памяти оставить и вызвать доп ядра из CPU. Или создать __device__ функции и вызывать их на GPU.