C++: Как ускорить этот многопоточный код?

Question

A 82 @AtariSMN82

Разработчик игр

C++: Как ускорить этот многопоточный код?

Суть кода - для каждого объекта формируется список соседних, надо создать список пар с этим объектом и найденными соседями, потом это всё объединить в общий список пар. Функция поиска соседей очень медленная и я захотел вызывать её многопоточно, но итоговый список всего один и я не знаю как сделать в него быструю и безопасную вставку.
Код упрощённо:

// collision_pairs - unordered_map<Entity*, Entity*>
// entitys - std::vector<Entity*>

/* найти ближайших соседей и создать
списки пар для проверки пересечений хитбоксов */
#pragma omp parallel for \
  schedule(dynamic) \
  shared(root, collision_pairs)
for (auto entity: entitys) {
  ...
  Vector<Entity*> list
  /* очень тяжёлая функция, которая работает разное
  количество времени и вернёт список соседних объектов в list*/
  root->find(area, list)

  // добавить этих соседей в пары на проверки
  for (auto other: list) {
    auto addr_a = entity
    auto addr_b = other
    // сами себя не проверяем
    continue_if (addr_a == addr_b)
    // эта перестановка сократит число одинаковых пар
    if (addr_b > addr_a)
      std::swap(addr_a, addr_b)
        
    #pragma omp critical(dataupdate)
    collision_pairs.emplace( {addr_a, addr_b} )
  }
}

Было бы лучше создать для каждого потока свою локальную копию collision_pairs, а потом объединить её с релизной, но не думаю что в omp есть такая прагма ( shared(collision_pairs) здесь не помогает, нужна синхронизация, а private(collision_pairs) создаст локальные копии, но они в конце не объединятся).

Вопрос задан более двух лет назад
151 просмотр

9 комментариев

Подписаться Сложный 9 комментариев

mayton2019 @mayton2019

А что внутри этой функции?

root->find(area, list)

Написано более двух лет назад
A 82 @AtariSMN82 Автор вопроса
mayton2019, рекурсивный обход нод со своими локальными списками, это алгоритм QuadTree для разграничения 2D пространства и там внутри нечего распараллелить

void Qtree::find(CN(Rect) area, Vector<Entity*>& list) const { if (intersect(this->bound, area)) { list.insert(list.end(), entitys.begin(), entitys.end()); if (lu) { lu->find(area, list); ru->find(area, list); ld->find(area, list); rd->find(area, list); } } } // find
Написано более двух лет назад
mayton2019 @mayton2019
Ты можешь в однопоточном режиме собрать для нас цифры? Сколько % времени работает эта функция

root->find(area, list)

и сколько работает это

for (auto other: list) { ... }
Написано более двух лет назад
A 82 @AtariSMN82 Автор вопроса

mayton2019,
Я попробовал измерить через rdtsc
find - 229..19108
for list - 255..57434
это может занимать разное время, первое может быть быстрее второго и наоборот

Написано более двух лет назад
mayton2019 @mayton2019

А какой speedup между 1 процессом и 2 или 4 или 8 ?

Написано более двух лет назад
A 82 @AtariSMN82 Автор вопроса

mayton2019,
А какой speedup между 1 процессом и 2 или 4 или 8 ?

Без этого было 40 фпс в дебаге без оптимизаций на 1000 объектах, теперь 120 на 4-х ядрах

Написано более двух лет назад
A 82 @AtariSMN82 Автор вопроса

mayton2019, В find только вставка массива в массив медленная.

Использование std::list не помогает. Помогает только vector.reserve(16) перед вставками.
Пробовал ещё через memory_resource блок на стеке выделить и отдать под список в векторе или std::list, но скорости он не давал. Ещё пробовал просто лист фиксированного размера делать, но разница в 2 фпс была.

Написано более двух лет назад
mayton2019 @mayton2019
А что здесь происходит?

#pragma omp critical(dataupdate) collision_pairs.emplace( {addr_a, addr_b} )

Первое - это критическая секция. Что это за объект dataupdate. Как он расположен по отношению
к главной функции? И где вообще главная функция. Хочется понять ее контракт.

Зачем мы делаем emplace? Можно ли сделать просто push_back?

Я не очень понимаю диаграмму вверху. Она какая-то мелкая и трудно читать легенду. Есть подозрение
что критическая секция здесь не нужна. Она - дорогая и ее лучше вынести из цикла. А для каждого
OMP потока накапливать свой маленький список.

Слить в самом конце.
Написано более двух лет назад
A 82 @AtariSMN82 Автор вопроса

Есть подозрение
что критическая секция здесь не нужна. Она - дорогая и ее лучше вынести из цикла. А для каждого
OMP потока накапливать свой маленький список.

mayton2019, ок, я уже сделал так, всё ускорилось

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 388 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
C

+1 ещё

Простой
Pthread, чистый си, откуда ошибка сегментирования?
- 1 подписчик
- 03 мар.
- 253 просмотра
2

ответа
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 281 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 405 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 295 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 252 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 235 просмотров
0

ответов
Показать ещё Загружается…

А что внутри этой функции?

root->find(area, list)
mayton2019, рекурсивный обход нод со своими локальными списками, это алгоритм QuadTree для разграничения 2D пространства и там внутри нечего распараллелить

void Qtree::find(CN(Rect) area, Vector<Entity*>& list) const { if (intersect(this->bound, area)) { list.insert(list.end(), entitys.begin(), entitys.end()); if (lu) { lu->find(area, list); ru->find(area, list); ld->find(area, list); rd->find(area, list); } } } // find
Ты можешь в однопоточном режиме собрать для нас цифры? Сколько % времени работает эта функция

root->find(area, list)

и сколько работает это

for (auto other: list) { ... }
mayton2019,
Я попробовал измерить через rdtsc
find - 229..19108
for list - 255..57434
это может занимать разное время, первое может быть быстрее второго и наоборот
А какой speedup между 1 процессом и 2 или 4 или 8 ?
mayton2019,
А какой speedup между 1 процессом и 2 или 4 или 8 ?

Без этого было 40 фпс в дебаге без оптимизаций на 1000 объектах, теперь 120 на 4-х ядрах
mayton2019, В find только вставка массива в массив медленная.

Использование std::list не помогает. Помогает только vector.reserve(16) перед вставками.
Пробовал ещё через memory_resource блок на стеке выделить и отдать под список в векторе или std::list, но скорости он не давал. Ещё пробовал просто лист фиксированного размера делать, но разница в 2 фпс была.
А что здесь происходит?

#pragma omp critical(dataupdate) collision_pairs.emplace( {addr_a, addr_b} )

Первое - это критическая секция. Что это за объект dataupdate. Как он расположен по отношению
к главной функции? И где вообще главная функция. Хочется понять ее контракт.

Зачем мы делаем emplace? Можно ли сделать просто push_back?

Я не очень понимаю диаграмму вверху. Она какая-то мелкая и трудно читать легенду. Есть подозрение
что критическая секция здесь не нужна. Она - дорогая и ее лучше вынести из цикла. А для каждого
OMP потока накапливать свой маленький список.

Слить в самом конце.
Есть подозрение
что критическая секция здесь не нужна. Она - дорогая и ее лучше вынести из цикла. А для каждого
OMP потока накапливать свой маленький список.

mayton2019, ок, я уже сделал так, всё ускорилось

Answer 1 · 2023-10-25 21:43:44

А вы не добавляйте все в один список сразу. Пусть каждый поток использует свой список. Наверно, стоит заветси массив списков и использовать номер потока как индекс в массиве - в тот список ответ и добавляйте.

В самом конце можно списки объединить. Последовательно. Или с критической секцией. Каждый поток должен получить первый и последний элемент списка. За две операции добавить список к глобальному и изменить последний элемент в глобальном списке. Ну, это если std::list использовать.

Вообще, если один раз в конце собирать все ответы, то можно их и в vector в критической секции складывать. Это все займет не больше времени, чем один раз ответ вывести.

C++: Как ускорить этот многопоточный код?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт