Скорее всего, тест скорости выполнения исполняется буквально один, в лучшем случае, пару десятков раз. (Наверняка, ради экономии средств)
По причинам, описанным выше - существует вариативность результата, независимая от алгоритма.
Пока подобный замер даёт ориентировочное понимание для сравнения - it's fine enough, и никто не будет заморачиваться большей научной точностью.
Для погружения в мир тестирования производительности - можно открыть документацию JMH (там ещё добавляется сложности и из-за Just-in-Time модификаций, но как помню, теоретическая постановка и список общих для любого языка проблем были описаны)