Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Question

AlexHell @AlexHell

Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Пока собираю инфу - есть ли такая структура данных - ее название, возможно и имплементация в какой-то из открытых библиотек.

Должна быть такой:
1) Очередь сообщений (возможно несколько), при этом у каждого сообщения есть SubjectId (скажем ID пользователя и т.п.)
2) Пул потоков (т.е. больше 1 потока в общем виде), которые берут сообщения из очереди и начинают их исполнять (consumer)
3) При этом обязательно запрещено начинать исполнение запроса с SubjectId который уже исполняется, т.е.
можно начать исполнять в 1м потоке Message с SubjectId == 1,
можно во 2м потоке Message с SubjectId == 2,
но если условно у нас 3 потока, то нельзя начать исполнять в 3м потоке Message с SubjectId == 1 или 2, это должен быть любой другой SubjectId
* как только один из потоков закончил работу, тот SubjectId становится свободным, скажем == 1, и тогда новый поток может взять Message с SubjectId == 1 из очереди (структуры)

Для чего нужна такая структура - чтобы не требовались дополнительные критические секции (lock \ synchronized) в разрезе одинаковых объектов, т.к. когда мы работаем в параллель с объектом с SubjectId == 1 из 2х потоков то мы обязаны lock-ть обращения к его структурам, а в случае же такой структуры - lock-ть не нужно на сам объект (с SubjectId) (хотя возможны lock-и на другие общие структуры - не суть вопроса)

В отличие от однопоточного исполнения перфоманс будет выше т.к. потоков несколько, целый пул, т.е. сколько угодно ядер можно загрузить, если запросы в большинстве случаев будут с разными SubjectId.

Главное чтобы тут все не было покрыто lock-ами или их аналогами, что сильно порежет перфоманс изза простоя ядер CPU.

Как мне видится на первый взгляд тут нужен HashMap с ключем SubjectId и значение List т.е. все сообщения которые по этому SubjectId.
И куча обвязки в виде начал и конца обработки, выбора нужного SubjectId и т.п.

Тут есть сходство с акторами из Akka, но я не эксперт в них. Но самое главное что в них не устраивает на первый взгляд - каждый actor это инстанс через new и со своей очередью, а если в большинстве случаев у нас разные SubjectId то расточительно по памяти иметь по инстансу класса со своей очередью на один-два Message да плюс не известно как оно по перфомансу будет в таком кол-ве акторов. Например если у нас SubjectId от 1 до 1_000_000 то создастся 1_000_000 акторов, у каждого своя очередь, что вероятно траблы (надо профайлить).

__ update

глобальный порядок не нужен (действительно если бы нужен был - только в однопотоке можно это сделать), а вот локальный желателен

и если получится - глобальный хоть сколько-нибудь нужен в том плане чтобы не висели задачи в очереди вечно, например если придет 1я задача, 2я .. 1000я, не надо чтобы 1я висела до окончания веков, потому что новые задачи будут появляться (1000я-2000я и т.п)

Вопрос задан более трёх лет назад
158 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

jcmvbkbc @jcmvbkbc

Если нет, возвращает Message в конец очереди и берёт следующий из начала.

если в очереди было больше одного сообщения с этим ID их порядок после этого действия будет нарушен.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

jcmvbkbc, если необходима гарантия порядка, то о максимально возможной производительности придётся забыть.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

о максимально возможной производительности придётся забыть.

Сергей Горностаев, чего это? можно, например, заводить промежуточную очередь ассоциированную с ID и складывать все сообщения с этим ID вынутые из основной очереди в неё.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

jcmvbkbc, это гарантирует порядок обработки в рамках одного идентификатора, но не всех. Является ли это достаточным условием известно только автору вопроса. Я обычно сталкивался с ситуациями когда нужна либо глабальная гарантия упорядоченности, либо ненужна вовсе.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

это гарантирует порядок обработки в рамках одного идентификатора, но не всех

Сергей Горностаев, мне показалось, что из постановки задачи именно это и следует. Если требуется глобальный порядок вообще нет смысла потоки заводить.

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

jcmvbkbc, глобальный порядок не нужен (действительно если бы нужен был - только в однопотоке можно это сделать), а вот локальный желателен

и если получится - глобальный хоть сколько-нибудь нужен в том плане чтобы не висели задачи в очереди вечно, например если придет 1я задача, 2я .. 1000я, не надо чтобы 1я висела до окончания веков, потому что новые задачи будут появляться (1000я-2000я и т.п)

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

jcmvbkbc,

заводить промежуточную очередь ассоциированную с ID и складывать все сообщения с этим ID вынутые из основной очереди в неё.

да я тоже первоначально подумал что придется иметь несколько очередей
1) та что исполняется - возможно в виде статусов, или не очередь вовсе а HashSet[SubjectId]
2) та что отложена - HashMap[SubjectId, List[Message]] изза того что уже исполняется с таким же
.. но вот думаю есть ли такие имплементации, чтобы уже отлажено все было
вроде задача разумная, всмысле с многопотоком связана, неужто никто так не делает

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

Сергей Горностаев ,

Если блокировка удалась, поток выполняет свою работу. Если нет, возвращает Message в конец очереди и берёт следующий из начала. Остаётся только подобрать эффективный размер массива блокировок.

интересный подход, да только тут нюанс с локальным порядком все портит - он полностью реверсным станет или вообще хаотичным

а скажите что имели ввиду под размером массива блокировок.. разьве массив не должен быть равен кол-ву SubjectId ?

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

AlexHell, гарантия упорядоченности всё очень сильно усложняет. Готовое решение вы вряд ли найдёте, придётся городить свои структуры данных.

а скажите что имели ввиду под размером массива блокировок.. разьве массив не должен быть равен кол-ву SubjectId ?

Это был бы перерасход ресурсов. Хорошая хэш-функция позволяет сводить огромные диапазоны возможных значений к небольшим. Например striped lock в ConcurrentHashMap по умолчанию содержит всего 16 блокировок, хотя количество уникальных ключей теоретически бесконечно.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 2 подписчика
- вчера
- 413 просмотров
9

ответов
Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб.
- 60 просмотров
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 110 просмотров
1

ответ
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 119 просмотров
2

ответа
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1424 просмотра
5

ответов
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 1133 просмотра
2

ответа
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 178 просмотров
4

ответа
Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 6 подписчиков
- 12 авг.
- 1216 просмотров
1

ответ
Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 448 просмотров
2

ответа
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг.
- 388 просмотров
3

ответа
Показать ещё Загружается…

Backend developer

Creative Code

До 160 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Python Backend Developer

SLLR.market

от 250 000 до 320 000 ₽

Answer 1 · 2020-02-20 03:35:32

Выглядит как обычный striped lock. Берёте обычную очередь, обычный пул потоков и заполняете массив экземплярами Lock. Поток в начале работы берёт Message из очереди, получает из него SubjectId, вычисляет его хэш и пытается захватить блокировку из соответствующего хэшу элемента массива. Если блокировка удалась, поток выполняет свою работу. Если нет, возвращает Message в конец очереди и берёт следующий из начала. Остаётся только подобрать эффективный размер массива блокировок.

Answer 2 · 2020-02-20 06:22:09

Думаю надо почитать про "Очереди сообщений" и сервис RabbitMQ https://habr.com/ru/post/150134/
"Это как раз то что вам НУЖНО, Поттер"

Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт