Почему -pthread произвольно ускоряет работу программы?

Question

Имя @mrjbom

C
GCC

Почему -pthread произвольно ускоряет работу программы?

Привет.
У меня есть такая программа;

#include <stdio.h>
#include <stdlib.h>
#include <stdbool.h>
#include <omp.h>
#include <time.h>

#define ARRAY_SIZE 1024

//структуры для хранения стартового и конечного времени
struct timespec start_time = {0}, finish_time = {0};
//переменная для расчёта дельты времени в наносекундах
long time_delta = 0;

//функция сортирующая массив "пузырьком"
void bubble_sort(unsigned int* array) {
    unsigned int tmp = 0;
    bool no_swap = 0;
    for (unsigned int i = ARRAY_SIZE - 1; i >= 0; --i)
    {
        no_swap = 1;
        {
            //#pragma omp paralel for num_threads(4)
            for (unsigned int j = 0; j < i; j++)
            {
                if (array[j] > array[j + 1])
                {
                    tmp = array[j];
                    array[j] = array[j + 1];
                    array[j + 1] = tmp;
                    no_swap = 0;
                }
            }
        }
        if (no_swap)
            break;
    }
}

int main(int argc, char* argv[]) {
    (void)argc;
    (void)argv;
    //настроим генератор случайных чисел
    srand(time(NULL));
    //выделим память для теста
    unsigned int* array = malloc(sizeof(unsigned int) * ARRAY_SIZE);
    if(!array) { return -1; }
    //сгенерируем массив
    for(unsigned int i = 0; i < ARRAY_SIZE; ++i) {
        array[i] = rand() % ARRAY_SIZE;
    }
    //замеряем стартовое время процесса
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time);
    
    //отсортируем массив
    bubble_sort(array);

    //замеряем конечное время
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &finish_time);
    time_delta = (1000000000 * (finish_time.tv_sec - start_time.tv_sec)) + (finish_time.tv_nsec - start_time.tv_nsec);
    printf("Затраченное время: %li\n", time_delta);
    free(array);
    return 0;
}

Если я компилирую её так: gcc main.c -o prog, то получаю число примерно равное 20000000, однако, если я добавляю флаг -pthread, то время работы уменьшиться до 12000000, я не понимаю почему так происходит, почему при добавлении этого флага, время исполнения падает само по себе?

Изначально, я хотел протестировать прирост времени от использования различных деректив OpenMP, но т.к. флаг -fopenmp автоматически подключает -pthread , то время работа падает само по себе, а это уже портит точность.

Что делать?

Вопрос задан более трёх лет назад
127 просмотров

2 комментария

Подписаться 3 Простой 2 комментария

Армянское Радио @gbg

Давайте подробности - запускаете на виртуалке или на реальном железе?

Ну и таймер вы взяли поганенький. Читали докемент?

NOTE for SMP systems
The CLOCK_PROCESS_CPUTIME_ID and CLOCK_THREAD_CPUTIME_ID clocks are realized on many platforms using timers from the CPUs (TSC on i386, AR.ITC on Itanium). These registers may differ between CPUs and as a consequence these clocks may return bogus results if a process is migrated to another CPU.

If the CPUs in an SMP system have different clock sources then there is no way to maintain a correlation between the timer registers since each CPU will run at a slightly different frequency. If that is the case then clock_getcpuclockid(0) will return ENOENT to signify this condition. The two clocks will then only be useful if it can be ensured that a process stays on a certain CPU.

The processors in an SMP system do not start all at exactly the same time and therefore the timer registers are typically running at an offset. Some architectures include code that attempts to limit these offsets on bootup. However, the code cannot guarantee to accurately tune the offsets. Glibc contains no provisions to deal with these offsets (unlike the Linux Kernel). Typically these offsets are small and therefore the effects may be negligible in most cases.

Написано более трёх лет назад
Имя @mrjbom Автор вопроса

Армянское Радио, работает на виртуальной.
Тогда, как лучше считать время работы сортировки?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Компьютерная академия «TOP»

Учебная программа “Разработка программного обеспечения”

30 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Имя @mrjbom Автор вопроса

Я провожу бенчмаркинг на виртуальной машине, там ничего лишнего не установлено и работает минимум всего.
Понял, увеличу размер массива и выберу другой алгоритм.

Как лучше измерить время в моём случае? Чтоб -pthread сам по себе не влиял на счётчик.

Написано более трёх лет назад
Армянское Радио @gbg

Герман, да -pthread и не должен влиять на счетчик.

Проводя сравнение на виртуальной машине, вы создаете лишнюю неизвестную сущность, потому что виртуальная машина, (ВО ОТКРЫТИЕ), работает на реальной машине, и делит ресурсы с этой реальной машиной.

Для разных задач ВМ может съесть случайным образом до 5-10% процентов быстродействия, а если накосячить в конфигах и NUMA, то и все 70%

Написано более трёх лет назад
Имя @mrjbom Автор вопроса

Армянское Радио, к сожалению, у меня нет другой реальной машины.

Но вы же описали, что я использую неправильный метод подсчёта времени, какой будет использовать правильней?

Написано более трёх лет назад
Армянское Радио @gbg

Герман, я использую C++ и std::high_resolution_clock

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 282 просмотра
5

ответов
Assembler

+2 ещё

Простой
Как заставить GCC (i686) генерировать реальный 16-битный код без использования EAX, ECX и т. д.?
- 1 подписчик
- 31 окт.
- 99 просмотров
2

ответа
C

Средний
Почему мой лексер выдает неизвестные токены?
- 1 подписчик
- 25 окт.
- 122 просмотра
1

ответ
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 141 просмотр
0

ответов
Linux

+3 ещё

Средний
Как портировать U-boot на ASR1803?
- 5 подписчиков
- 06 окт.
- 262 просмотра
0

ответов
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 320 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 235 просмотров
1

ответ
C

Простой
Почему на запускается Valgrind?
- 1 подписчик
- 13 сент.
- 105 просмотров
1

ответ
C

+1 ещё

Простой
Как исправить ошибку?
- 1 подписчик
- 05 авг.
- 201 просмотр
2

ответа
C

+1 ещё

Простой
Как работает объявление переменных разных типов данных?
- 1 подписчик
- 30 июл.
- 139 просмотров
3

ответа
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

C++ разработчик (Поиск)

Сбер • Москва

от 250 000 до 400 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Давайте подробности - запускаете на виртуалке или на реальном железе?

Ну и таймер вы взяли поганенький. Читали докемент?

NOTE for SMP systems
The CLOCK_PROCESS_CPUTIME_ID and CLOCK_THREAD_CPUTIME_ID clocks are realized on many platforms using timers from the CPUs (TSC on i386, AR.ITC on Itanium). These registers may differ between CPUs and as a consequence these clocks may return bogus results if a process is migrated to another CPU.

If the CPUs in an SMP system have different clock sources then there is no way to maintain a correlation between the timer registers since each CPU will run at a slightly different frequency. If that is the case then clock_getcpuclockid(0) will return ENOENT to signify this condition. The two clocks will then only be useful if it can be ensured that a process stays on a certain CPU.

The processors in an SMP system do not start all at exactly the same time and therefore the timer registers are typically running at an offset. Some architectures include code that attempts to limit these offsets on bootup. However, the code cannot guarantee to accurately tune the offsets. Glibc contains no provisions to deal with these offsets (unlike the Linux Kernel). Typically these offsets are small and therefore the effects may be negligible in most cases.
Армянское Радио, работает на виртуальной.
Тогда, как лучше считать время работы сортировки?

Answer 1 · 2020-06-21 11:09:36

Герман,
1) Бенчить надо в максимально контролируемых условиях, на машине, на которой кроме ОС и вашей программы не запущен, например, браузер с кучей вкладок.
2) Бенчить на такой милюзге, как 1024 элемента смысла нет, это выполнится за микросекунды, а у вас лезет погрешность порядка миллисекунд, что говорит скорее о лажовом таймере (или о том, что вы где-то добыли оригинальный 8080)
3) Бенчить пузырьковую сортировку смысла еще меньше, кому она сдалась с ее сложностью N^2? Для распараллеливания больше подходят другие сортировки

Для начала, увеличьте размер сортируемого раз так в миллион.

Почему -pthread произвольно ускоряет работу программы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт