Перформанс можно еще выжать из компилятора, поигравшись флажками. Для начала можно попробовать O2, а потом и LTO (IPO). Но, вырастет compile-time.
Если алгоритм параллельный, как отмечали предыдущие отвечающие, можно использовать OpenMP. Новые версии стандарты поддерживают и явную векторизацию и оффлоад на ускоритель.
Вообще, для работы над перформансом самый лучший тул - vTune. Сразу видно что и где медленно работает. От результатов профилирования уже можно отталкиваться и смотреть, оптимизация чего принесет наибольший суммарный привар.