Почему это CUDA-ядро дает результаты, отличные от результатов CPU-версии?

Question

Robotex @Robotex

Почему это CUDA-ядро дает результаты, отличные от результатов CPU-версии?

Я портировал на CUDA этот кусок кода:

if(_layersCount > 1)
        {
            for(int i=_layersCount-2;i>=0;i--)
            {
                for(int j=0;j<_neuronsPerLayerCount[i];j++) // cuda kernel
                {
                    localGradients[indexByLayerAndNeuron(i, j)] = 0;
    
                    for(int k=0;k<_neuronsPerLayerCount[i+1];k++)
                    {
                        localGradients[indexByLayerAndNeuron(i, j)] += _neuronsInputsWeights[indexByLayerNeuronAndInput(i+1, k, j)]
                                                                        * localGradients[indexByLayerAndNeuron(i+1, k)];
                    }
    
                    localGradients[indexByLayerAndNeuron(i, j)] *= derivatives[indexByLayerAndNeuron(i, j)];
                }
            }
        }

Результат:

if(_layersCount > 1)
        {
            for(int i=_layersCount-2;i>=0;i--)
            {
                // calculateLocalGradientsForAnotherLayers
                blocksCount = floor((double) _neuronsPerLayerCount[i] / threads.x) + 1;
                blocks = dim3(blocksCount, 1);
    
                calculateLocalGradientsForAnotherLayers <<<blocks, threads>>> (deviceLocalGradients, _neuronsInputsWeights, deviceDerivatives, _neuronsPerLayerCount[i], _neuronsInPreviousLayers[i], _neuronsInPreviousLayers[i+1], _neuronsPerLayerCount[i+1], _inputsInPreviousLayers[i], _inputsInCurrentLayer[i]);
            }
        }

Ядро calculateLocalGradientsForAnotherLayers:

__global__ void calculateLocalGradientsForAnotherLayers(double * localGradients, double * neuronsInputsWeights, double * derivatives, int neuronsCount, int neuronsInPreviousLayers, int neuronsInPreviousLayersWithCurrent, int neuronsInNextLayer, int inputsInPreviousLayers, int inputsInCurrentLayer)
    {
        int idx = blockIdx.x * blockDim.x + threadIdx.x;
    
        if(idx < neuronsCount)
        {
            int neuron = neuronsInPreviousLayers + idx;
    
            localGradients[neuron] = 0;
    
            // this to Kernel, then reduce localGradients.
            for(int k=0;k<neuronsInNextLayer;k++)
            {
                localGradients[neuron] += neuronsInputsWeights[inputsInPreviousLayers + k*inputsInCurrentLayer + idx]
                                                                * localGradients[neuronsInPreviousLayersWithCurrent + k];
            }
    
            localGradients[neuron] *= derivatives[neuron];
        }
    }

Но я вижу различия в результатах вычислений, начиная со второго знака после запятой. В чем может быть проблема? Все остальные ядра за исключением этого работают отлично.

Моя карта GF555M. Она поддерживает двойную точность.

Вопрос задан более трёх лет назад
4247 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Skillbox

Профессия Разработчик С++  с нуля + ИИ

7 месяцев

Далее
Яндекс Практикум

Разработчик C++ расширенный

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Robotex @Robotex Автор вопроса

Так и есть. Оказалось, банальная опечатка. В строке:

calculateLocalGradientsForAnotherLayers <<<blocks, threads>>> (deviceLocalGradients, _neuronsInputsWeights, deviceDerivatives, _neuronsPerLayerCount[i], _neuronsInPreviousLayers[i], _neuronsInPreviousLayers[i+1], _neuronsPerLayerCount[i+1], _inputsInPreviousLayers[i], _inputsInCurrentLayer[i]);

следовало написать:

calculateLocalGradientsForAnotherLayers <<<blocks, threads>>> (deviceLocalGradients, _neuronsInputsWeights, deviceDerivatives, _neuronsPerLayerCount[i], _neuronsInPreviousLayers[i], _neuronsInPreviousLayers[i+1], _neuronsPerLayerCount[i+1], _inputsInPreviousLayers[i+1], _inputsInCurrentLayer[i+1]);

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Reinterpret_cast вектора типа double в T неопределенное или определенное поведение?
- 1 подписчик
- 04 мар.
- 100 просмотров
1

ответ
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 2 подписчика
- 26 февр.
- 454 просмотра
5

ответов
C++

+1 ещё

Простой
Как найти причину недетерминизма программы?
- 1 подписчик
- 12 февр.
- 257 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 321 просмотр
1

ответ
C++

Простой
Как правильно установить значения интерпретатора для того, чтобы запустить клиент minecraft?
- 1 подписчик
- 31 янв.
- 191 просмотр
1

ответ
C++

Простой
Фатальная ошибка: Файла tabulate?
- 1 подписчик
- 25 янв.
- 83 просмотра
0

ответов
C++

Простой
Как решить ошибку «Код инcтрументирования объектов cookie стека обнаружил переполнение буфера, связанное со стеком»?
- 1 подписчик
- 23 янв.
- 83 просмотра
1

ответ
C++

+1 ещё

Простой
Файл cpp не видит библиотеку из другого файла как решить проблему?
- 1 подписчик
- 10 янв.
- 176 просмотров
1

ответ
C++

Простой
Как правильно реализовать блок памяти для сильной и слабой ссылки?
- 1 подписчик
- 05 янв.
- 131 просмотр
1

ответ
C++

Простой
Эффективное изучение С++?
- 1 подписчик
- 27 дек. 2025
- 450 просмотров
2

ответа
Показать ещё Загружается…

Flutter Developer

DevTeam.Space

от 1 500 до 3 000 $

PHP Symfony Developer

Systeme.io • Москва

от 250 000 до 350 000 ₽

Senior Full-Stack Developer (PHP / Laravel / React / React Native)

Private-Team

от 2 500 $

Answer 1 · 2012-11-16 22:16:09

Возможно проблема в том, что ядра в цикле выполняются асинхронно.
А результат выполнения одного ядра зависит от результата другого, и следующее ядро в цикле выполняется не дождавшись окончания выполнения предыдущего.
Двойную точность, если у Вас не тесла к20 или старые тесла 2ххх, смысла использовать нет на картах nvidia.
GF555M и в одинарной точности не блещет особо, а с двойной ещё на порядок медленнее.
Cовременный 4 ядерный CPU будет быстрее в double.

Answer 2 · 2012-11-21 04:48:52

Я переписал ядро так, чтобы оно симулировалось циклами на CPU, чтобы проверить проблема ли в GPU. Погрешность осталась, следовательно ошибка в коде скорее всего. Ищу ее…

Почему это CUDA-ядро дает результаты, отличные от результатов CPU-версии?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт