скорость дается за счет:
- грамотное построение алгоритмов
- грамотное использование конвееризации процессора (устранение конфликтов по данным в циклах, развертка циклов вручную)
- грамотное использование векторизации вычислений (SSE, AVX, или же опять же построение циклов таким образом, что бы небыло конфликтов по данным если вы хотите что бы компилятор вам это сам сделал).
- использование всех доступных ресурсов (например применение GPGPU там где надо быстро посчитать много чего и не требуется высокая точность).