Как поправить код, чтобы улучшить расхождения времени его выполнения?

Question

TicSo @TicSo

Rust

Как поправить код, чтобы улучшить расхождения времени его выполнения?

В приведенном коде создал тестовый пример обработки массива vec01.
Задавая количество повторов такой обработки смотрю на время выполнения.
Не понимаю, почему бывает расхождение более чем в три раза, например,
time_min = 41200 time_max = 145000.
Комп 6 ядер 12 потоков ничем не нагружен. Если не накосячил с кодом, а так
захватывается периодически ресурс потоков компа, то как такое решить
и получать расхождение в пределах 20%?

код

use rand::Rng;
use std::time::Instant;

fn main() {
   //
   const RING: usize = 300;                   // задаём кол-во повторов 
   const ELEM: usize = 1000;                  // кол-во елементов vec_01
   //
   let mut vec_01: Vec<u8> = vec![];
   //
   let mut i: usize = 0;
   loop {
      if i == ELEM {break};
      let mut rng = rand::thread_rng();
      let n: u8 = rng.gen();
      vec_01.push(n);
      i = i + 1;
   }   
   i = 0; // ^_ заполнил массив `vec_01` произвольными элементами типа u8.
   //   
   let len_01: usize = vec_01.len();
   //
   let mut count_chet: usize = 0; 
   let mut count_nech: usize = 0; 
   let mut j: usize = 0;
   //
   let mut vec_chet: Vec<u8> = Vec::with_capacity(len_01 * RING);
   let mut vec_nech: Vec<u8> = Vec::with_capacity(len_01 * RING);
   let mut t01: u64 = 0;   
   let mut t02: u64 = 10_000_000_000;   // задал заведомо бОльшее значение (моё дефолтное);
   //
   loop {
      if j == RING {break};
      let start = Instant::now();                                                            // момент начала измерения выполнения кода;
      //
      loop {
         if i == len_01 {break};
         if vec_01[i] % 2 == 0 {
            vec_chet.push(vec_01[i]);
            count_chet = count_chet + 1;
         }else{
            vec_nech.push(vec_01[i]);
            count_nech = count_nech + 1;
         }
         i = i + 1;
      }
      //
      i = 0;
   //
   j = j + 1;
   let duration = start.elapsed();
   // println!("{:?}. время выполнения цикла = {:?} наносек. = {:?}", j, duration, duration.subsec_nanos() as u64);
   //
   if (duration.subsec_nanos() as u64) > t01 {
      t01 = duration.subsec_nanos() as u64;
   }
   if (duration.subsec_nanos() as u64) < t02 {
      t02 = duration.subsec_nanos() as u64;
   }
   //
   }
   //
   println!("кол-во элементов массива `vec_01`, которые обрабатываю в цикле = {:?}", len_01);
   println!("кол-во повторов = {:?}", RING);
   println!("count_chet = {:?}", count_chet);
   println!("count_nech = {:?}\n", count_nech);
   println!("time_min = {:?} time_max = {:?}", t02, t01);
}

_play.rust-lang.org/?version=stable&mode=debug&edition=2021&gist=537d0482efc78c4a05a2174015c2291c

статистика времени выполнения

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 1000
кол-во повторов = 300
count_chet = 154500
count_nech = 145500
time_min = 31400 time_max = 36800

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 1000
кол-во повторов = 300
count_chet = 150600
count_nech = 149400
time_min = 74000 time_max = 198600

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 1000
кол-во повторов = 300
count_chet = 139200
count_nech = 160800
time_min = 41200 time_max = 145000

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 1000
кол-во повторов = 300
count_chet = 152100
count_nech = 147900
time_min = 45700 time_max = 70400

Вопрос задан более года назад
171 просмотр

5 комментариев

Подписаться 1 Простой 5 комментариев

mayton2019 @mayton2019

145000 наносекунд == 145 милисекунд. Это очень маленькое время. Попробуй увеличить
параметры твоего алгоритма чтоб измерение длилось дольше.

Сейчас ты меряешь какой-то случайный процесс который в общей своей массе длиннее
чем твой изучаемый алгоритм.

Написано более года назад
TicSo @TicSo Автор вопроса

Например, если вектор на 100к элементов:

статистика

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 14976300
count_nech = 15023700
time_min = 2955500 time_max = 8525500

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15050100
count_nech = 14949900
time_min = 2956200 time_max = 8764100

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 14978700
count_nech = 15021300
time_min = 2957000 time_max = 7772900

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15069600
count_nech = 14930400
time_min = 2960400 time_max = 8574400

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15016500
count_nech = 14983500
time_min = 2958300 time_max = 7579600

Написано более года назад
Василий Банников @vabka Куратор тега Rust

1. Бенчмаркать нужно на одном и том же наборе данных.

2. Для бенямарков надо не велосипед строить, а использовать какой-нибудь criterion, тк есть очень много случайных процессов, которые могут влиять на результаты

3. subsec_nanos сообщает не полное время, а только количество наносекунд менее одной секунды.
То есть например, если у тебя Duration = 3 сек и 500нс, то subsec_nanos вернёт 500

Выводи в консоль сам duration тогда, чтобы не путаться

Написано более года назад
TicSo @TicSo Автор вопроса

Василий Банников,
1. Бенчмаркать нужно на одном и том же наборе данных.
В примере кода делаю 300 повторений над одним и тем же набором данных.

Написано более года назад
Василий Банников @vabka Куратор тега Rust

TicSo, 300-это мало для такого небольшого объема данных

Написано более года назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Rust для действующих разработчиков

4 месяца

Далее
OTUS

Rust Developer. Professional

5 месяцев

Далее
OTUS

Разработка децентрализованных приложений

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

5 комментариев

TicSo @TicSo Автор вопроса
Тогда я неправильно измеряю время каждого повторения, т.е. внешней итерации вот этого всего цикла:
внешний цикл
loop { if j == RING {break}; let start = Instant::now(); // loop { if i == len_01 {break}; if vec_01[i] % 2 == 0 { vec_chet.push(vec_01[i]); count_chet = count_chet + 1; }else{ vec_nech.push(vec_01[i]); count_nech = count_nech + 1; } i = i + 1; } // i = 0; // j = j + 1; let duration = start.elapsed(); // println!("{:?}. время выполнения цикла = {:?} наносек. = {:?}", j, duration, duration.subsec_nanos() as u64); // if (duration.subsec_nanos() as u64) > t01 { t01 = duration.subsec_nanos() as u64; } if (duration.subsec_nanos() as u64) < t02 { t02 = duration.subsec_nanos() as u64; } // }

Потому что здесь:

println!("{:?}. время выполнения цикла = {:?} наносек. = {:?}", j, duration, duration.subsec_nanos() as u64);

совпадает `duration` и `duration.subsec_nanos() as u64`

например

Это можно видеть и в текущем коде, например, на 10 элементов массива и 8 повторений:
vec_01 = [153, 50, 214, 252, 196, 17, 123, 20, 64, 146]
1. время выполнения цикла = 1.5µs наносек. = 1500
2. время выполнения цикла = 1.9µs наносек. = 1900
3. время выполнения цикла = 1µs наносек. = 1000
4. время выполнения цикла = 1µs наносек. = 1000
5. время выполнения цикла = 900ns наносек. = 900
6. время выполнения цикла = 900ns наносек. = 900
7. время выполнения цикла = 900ns наносек. = 900
8. время выполнения цикла = 900ns наносек. = 900
кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 10
кол-во повторов = 8
count_chet = 56
count_nech = 24
time_min = 900 time_max = 1900

Массив на 1000 элементов 30 повторений тоже считает правильно,
второй цикл из 30 дал минимальное время и 24-й цикл - максимальное:

30 на 1000

1. время выполнения цикла = 31.8µs наносек. = 31800
2. время выполнения цикла = 31.6µs наносек. = 31600
3. время выполнения цикла = 31.7µs наносек. = 31700
4. время выполнения цикла = 33.3µs наносек. = 33300
5. время выполнения цикла = 44.2µs наносек. = 44200
6. время выполнения цикла = 43.9µs наносек. = 43900
7. время выполнения цикла = 44.5µs наносек. = 44500
8. время выполнения цикла = 42.7µs наносек. = 42700
9. время выполнения цикла = 42.5µs наносек. = 42500
10. время выполнения цикла = 42.5µs наносек. = 42500
11. время выполнения цикла = 43.1µs наносек. = 43100
12. время выполнения цикла = 42.5µs наносек. = 42500
13. время выполнения цикла = 33.5µs наносек. = 33500
14. время выполнения цикла = 42.9µs наносек. = 42900
15. время выполнения цикла = 33.2µs наносек. = 33200
16. время выполнения цикла = 34µs наносек. = 34000
17. время выполнения цикла = 32.1µs наносек. = 32100
18. время выполнения цикла = 33.2µs наносек. = 33200
19. время выполнения цикла = 33.4µs наносек. = 33400
20. время выполнения цикла = 32.6µs наносек. = 32600
21. время выполнения цикла = 31.6µs наносек. = 31600
22. время выполнения цикла = 33.2µs наносек. = 33200
23. время выполнения цикла = 43.4µs наносек. = 43400
24. время выполнения цикла = 50.5µs наносек. = 50500
25. время выполнения цикла = 32.7µs наносек. = 32700
26. время выполнения цикла = 31.6µs наносек. = 31600
27. время выполнения цикла = 32.1µs наносек. = 32100
28. время выполнения цикла = 33.6µs наносек. = 33600
29. время выполнения цикла = 33.1µs наносек. = 33100
30. время выполнения цикла = 35.9µs наносек. = 35900
кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 1000
кол-во повторов = 30
count_chet = 15210
count_nech = 14790

time_min = 31600 time_max = 50500
Написано более года назад
Василий Банников @vabka Куратор тега Rust

TicSo, 40±10 микросек. Выглядит вполне ок, хотя для нормальной статистики лучше бы больше повторений сделать, чтобы распределение посчитать.

Написано более года назад
TicSo @TicSo Автор вопроса

Василий Банников, так я на трёхстах повторениях и получил расхождение большое, о чем исходный вопрос и задал ...

Написано более года назад
Василий Банников @vabka Куратор тега Rust

TicSo, так тебе же пишут - расхождение это ок. Серьёзно, попробуй через criterion погонять

Написано более года назад

Василий Банников @vabka Куратор тега Rust

TicSo, погонял критерион. Всё ещё выглядит всё нормально.

use criterion::{criterion_group, criterion_main, Criterion};
use rand::Rng;
use std::{
    hint::black_box,
    time::{Duration, Instant},
};

fn count_odds(data: &[u8], even: &mut Vec<u8>, odd: &mut Vec<u8>) -> (usize, usize) {
    let mut odd_count = 0;
    let mut even_count = 0;
    for i in data {
        if i % 2u8 == 0u8 {
            even_count += 1;
            even.push(*i);
        } else {
            odd_count += 1;
            odd.push(*i);
        }
    }

    (even_count, odd_count)
}

fn create_test_data(size: usize) -> Vec<u8> {
    let mut data = Vec::with_capacity(size);
    let mut rng = rand::thread_rng();

    for _ in 0..size {
        let n: u8 = rng.gen();
        data.push(n);
    }
    data
}

fn criterion_benchmark(c: &mut Criterion) {
    c.bench_function("count_odds 1M", |b| {
        b.iter_custom(|iters| {
            let size = 1_000_000;
            let data = create_test_data(size);
            let mut total = Duration::default();

            for _ in 0..iters {
                let mut evens = Vec::with_capacity(size);
                let mut odds = Vec::with_capacity(size);
                let start = Instant::now();
                let _ = count_odds(
                    black_box(&data[..]),
                    black_box(&mut evens),
                    black_box(&mut odds),
                );
                total += start.elapsed();
            }
            total
        });
    });

    c.bench_function("count_odds 1K", |b| {
        b.iter_custom(|iters| {
            let size = 1_000;
            let data = create_test_data(size);
            let mut total = Duration::default();

            for _ in 0..iters {
                let mut evens = Vec::with_capacity(size);
                let mut odds = Vec::with_capacity(size);
                let start = Instant::now();
                let _ = count_odds(
                    black_box(&data[..]),
                    black_box(&mut evens),
                    black_box(&mut odds),
                );
                total += start.elapsed();
            }
            total
        });
    });
}

criterion_group!(benches, criterion_benchmark);
criterion_main!(benches);

Написано более года назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Почему при обновлении rustup не обновляются rustc и cargo?
- 1 подписчик
- 22 сент.
- 171 просмотр
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 253 просмотра
2

ответа
Rust

Простой
Как вывести клиентскую куку в приложении, которое использует Reqwest with cookie_provider()?
- 3 подписчика
- 10 авг.
- 358 просмотров
0

ответов
Rust

Простой
Как повторять цикл в дочернем потоке с заданным интервалом для последних актуальных данных?
- 1 подписчик
- 25 июл.
- 195 просмотров
1

ответ
Rust

Простой
Как поправить код для отдельного потока, чтобы обрабатывать данные по заданному времени?
- 1 подписчик
- 23 июл.
- 205 просмотров
1

ответ
Rust

+1 ещё

Простой
Как решить проблему: Error calling dlltool 'dlltool.exe': program not found?
- 1 подписчик
- 20 июн.
- 429 просмотров
1

ответ
Программирование

+1 ещё

Простой
Что такое связывание, объявление, инициализация и определение?
- 1 подписчик
- 13 июн.
- 264 просмотра
1

ответ
Rust

Простой
Как понять комментарий «non-greedy» в описании синтаксиса литерала сырой строки в байтах?
- 1 подписчик
- 17 мая
- 88 просмотров
1

ответ
Windows

+1 ещё

Простой
В чём под Windows писать на Rust'е десктопные приложения?
- 1 подписчик
- 08 мая
- 2092 просмотра
4

ответа
Assembler

+1 ещё

Средний
Не работает customasm, как исправить?
- 1 подписчик
- 29 апр.
- 98 просмотров
0

ответов
Показать ещё Загружается…

Backend разработчик (Rust)

Street Falcon • Москва

от 250 000 ₽

Frontend / Product Engineer (Tauri + Vue) — Solo Role

Poker Training

от 250 000 до 300 000 ₽

Инженер-программист встраиваемых систем

Алабуга • Санкт-Петербург

от 127 500 ₽

145000 наносекунд == 145 милисекунд. Это очень маленькое время. Попробуй увеличить
параметры твоего алгоритма чтоб измерение длилось дольше.

Сейчас ты меряешь какой-то случайный процесс который в общей своей массе длиннее
чем твой изучаемый алгоритм.
Например, если вектор на 100к элементов:

статистика

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 14976300
count_nech = 15023700
time_min = 2955500 time_max = 8525500

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15050100
count_nech = 14949900
time_min = 2956200 time_max = 8764100

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 14978700
count_nech = 15021300
time_min = 2957000 time_max = 7772900

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15069600
count_nech = 14930400
time_min = 2960400 time_max = 8574400

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 100000
кол-во повторов = 300
count_chet = 15016500
count_nech = 14983500
time_min = 2958300 time_max = 7579600
1. Бенчмаркать нужно на одном и том же наборе данных.

2. Для бенямарков надо не велосипед строить, а использовать какой-нибудь criterion, тк есть очень много случайных процессов, которые могут влиять на результаты

3. subsec_nanos сообщает не полное время, а только количество наносекунд менее одной секунды.
То есть например, если у тебя Duration = 3 сек и 500нс, то subsec_nanos вернёт 500

Выводи в консоль сам duration тогда, чтобы не путаться
Василий Банников,
1. Бенчмаркать нужно на одном и том же наборе данных.
В примере кода делаю 300 повторений над одним и тем же набором данных.
TicSo, 300-это мало для такого небольшого объема данных

Answer 1 · 2024-10-06 17:42:56

Не скажу ничего про алгоритм и корректность замеров, но время t01 и t02 ты точно измеряешь неправильно

subsec_nanos
Returns the fractional part of this Duration, in nanoseconds.

This method does not return the length of the duration when represented by nanoseconds. The returned number always represents a fractional portion of a second (i.e., it is less than one billion).
https://doc.rust-lang.org/std/time/struct.Duration...

У структуры Duration есть операторы для сравнения, так что тебе не обязательно знать конкретное число, пока ты не выводишь его в консоль

let mut t01 = Duration::MIN;
let mut t02 = Duration::MAX;
if duration> t01 {
      t01 = duration; // здесь
   }
   if duration< t02 {
      t02 = duration; // и здесь
   }

UPD:

Комп 6 ядер 12 потоков ничем не нагружен. Если не накосячил с кодом, а так
захватывается периодически ресурс потоков компа, то как такое решить
и получать расхождение в пределах 20%?

1. Такой разброс, как у тебя показан - это норма. Нужно смотреть не на минимум/максимум, а на распределение (в комментах скинул график - там тоже минимум и максимум сильно различаются, но прогонов с таким временем мало)
2. Я не увидел в вопросе описания того, как происходит запуск. Хотябы в --release компилировал?
3. У тебя данные вполне статичные, так что компилятор при желании мог очень много наоптимизировать, что даст тебе некорректные результаты, но на распределение это влиять не должно.

Answer 2 · 2024-10-07 12:16:40

2. Я не увидел в вопросе описания того, как происходит запуск. Хотябы в --release компилировал?

спасибо за помощь разобраться
да, > cargo run --release
в отличие от debug даёт общее ускорение выполнения, но между повторами сохраняется иногда двукратное расхождение времени выполнения, например для массива на 10к элементов и 30 повторов:

10к/30

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 10000
кол-во повторов = 30
count_chet = 151950
count_nech = 148050
time_min = 59600 time_max = 110500

При значительном увеличении кол-ва элементов в массиве, например, до 10кк:

10кк/30

кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 10000000
кол-во повторов = 30
count_chet = 150007770
count_nech = 149992230
time_min = 44812400 time_max = 88239600
-
кол-во элементов массива `vec_01`, которые обрабатываю в цикле = 10000000
кол-во повторов = 30
count_chet = 149946630
count_nech = 150053370
time_min = 45137500 time_max = 89361300

вот гуляет время от 45 ms до 89 ms на одинаковых условиях и наборе данных и думаю, что это не нормально (случайные служебные процессы), а косяк кода. Поэтому задал вопрос.

Как поправить код, чтобы улучшить расхождения времени его выполнения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт