FLOPS достигаются за счёт блоков, выполняющих над числами с плавающей запятой (только с этими данными). А таких в одном ядре несколько. Остальное - это векторные операции, где арифметические операции выполняются параллельно. Зовётся SIMD - одна команда, несколько данных. В Intel таких технологий несколько, но самые используемые - это SSE и AVX различных версий. Например, AVX512 позволяет обрабатывать 8/16 чисел одновременно. Некоторые команды сдвоенные. Например, умножение со сложением. Поэтому считается умножение производительности в два раза. Поэтому приложение, не использующее подобные технологии всё равно будет выполнять примерно с той же скоростью, что и несколько лет назад. Ядра позволяют распараллелить выполнения/вычисления, но не более. Однопоточное приложение точно не выиграет никакой скорости на многоядерных процессорах.