Как умно распараллелить вложенный цикл OpenMP?

Question

aab137 @aab137

Как умно распараллелить вложенный цикл OpenMP?

Этот фрагмент кода решает систему линейных уравнений методом простой итерации:

int n_iter;
    double error = eps + 1;
    double *x_new = (double *)malloc(N * sizeof(double));
    double *Ax = (double *)malloc(N * sizeof(double));
    for (n_iter = 0; error >= eps; n_iter++) {
        error = 0;
        init_vector(Ax, N, 0);

        for (int i = 0; i < N; i++) {  // находим вектор Ax
            for (int j = 0; j < N; j++) {
                Ax[i] += A[i * N + j] * x[j];
            }
        }

        for (int i = 0; i < N; i++) {  // находим новый x и значение ошибки
            x_new[i] = x[i] - tau * (Ax[i] - b[i]);
            error += pow(x_new[i] - x[i], 2);
        }
        error = sqrt(error);
        
        // Обновление вектора x
        double *t = x;
        x = x_new;
        x_new = t;
    }

Нужно его распараллелить, создав одну параллельную секцию `#pragma omp parallel`, охватывающую весь итерационный алгоритм.
Почему просто не распараллелить два вложенных цикла - потому что тогда разбиение программы на процессы будет отнимать время на каждой итерации внешнего цикла.
Как это сделать - не понимаю. Нужно, чтобы внешний цикл сохранил порядок выполнения итераций, а вложенные циклы были распараллелены, при этом должна быть одна `#pragma omp parallel` перед внешним циклом.
Есть возможность разбить итерации по процессам вручную, как в этом примере:

#pragma omp parallel private(thread_id)
    {
        thread_id = omp_get_thread_num();
        for (iter_count = 0; accuracy > EPSILON && iter_count < MAX_ITERATION_COUNT; ++iter_count)
        {
            calc_Axb(A + line_offsets[thread_id] * N, x, b + line_offsets[thread_id], 
                     Axb + line_offsets[thread_id], line_counts[thread_id]);
#pragma omp barrier

            calc_next_x(Axb + line_offsets[thread_id], x + line_offsets[thread_id], 
                        TAU, line_counts[thread_id]);

#pragma omp single
            accuracy = 0;

#pragma omp atomic
            accuracy += calc_norm_square(Axb + line_offsets[thread_id], line_counts[thread_id]);
#pragma omp barrier

#pragma omp single
            accuracy = sqrt(accuracy) / b_norm;
        }
    }

Но этот способ мне не нравится, т.к. 1) выглядит костыльным, 2) сложно реализовать динамическую балансировку

Вопрос задан более двух лет назад
434 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Stepik

Внутреннее устройство контейнеров в STL (C++)

2 недели

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб.
- 155 просмотров
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 434 просмотра
5

ответов
C

Средний
Почему мой лексер выдает неизвестные токены?
- 1 подписчик
- 25 окт.
- 128 просмотров
1

ответ
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 148 просмотров
0

ответов
Linux

+3 ещё

Средний
Как портировать U-boot на ASR1803?
- 5 подписчиков
- 06 окт.
- 271 просмотр
0

ответов
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 330 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 238 просмотров
1

ответ
C

Простой
Почему на запускается Valgrind?
- 1 подписчик
- 13 сент.
- 107 просмотров
1

ответ
C

+1 ещё

Простой
Как исправить ошибку?
- 1 подписчик
- 05 авг.
- 206 просмотров
2

ответа
C

+1 ещё

Простой
Как работает объявление переменных разных типов данных?
- 1 подписчик
- 30 июл.
- 140 просмотров
3

ответа
Показать ещё Загружается…

Программист C/C++ для Embedded-систем (Middle)

Алабуга • Екатеринбург

До 370 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

C++ разработчик (Поиск)

Сбер • Москва

от 250 000 до 400 000 ₽

Answer 1 · 2023-05-27 17:07:41

Внешний цикл по итерацийм не распараллелить, потому что каждая итерация зависит от предыдущей.

Внутри можно циклы по i объединить все в один.

Ну и параллельте цикл по i через pragma omp for.

Как умно распараллелить вложенный цикл OpenMP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт