Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Question

AlexHell @AlexHell

Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Пока собираю инфу - есть ли такая структура данных - ее название, возможно и имплементация в какой-то из открытых библиотек.

Должна быть такой:
1) Очередь сообщений (возможно несколько), при этом у каждого сообщения есть SubjectId (скажем ID пользователя и т.п.)
2) Пул потоков (т.е. больше 1 потока в общем виде), которые берут сообщения из очереди и начинают их исполнять (consumer)
3) При этом обязательно запрещено начинать исполнение запроса с SubjectId который уже исполняется, т.е.
можно начать исполнять в 1м потоке Message с SubjectId == 1,
можно во 2м потоке Message с SubjectId == 2,
но если условно у нас 3 потока, то нельзя начать исполнять в 3м потоке Message с SubjectId == 1 или 2, это должен быть любой другой SubjectId
* как только один из потоков закончил работу, тот SubjectId становится свободным, скажем == 1, и тогда новый поток может взять Message с SubjectId == 1 из очереди (структуры)

Для чего нужна такая структура - чтобы не требовались дополнительные критические секции (lock \ synchronized) в разрезе одинаковых объектов, т.к. когда мы работаем в параллель с объектом с SubjectId == 1 из 2х потоков то мы обязаны lock-ть обращения к его структурам, а в случае же такой структуры - lock-ть не нужно на сам объект (с SubjectId) (хотя возможны lock-и на другие общие структуры - не суть вопроса)

В отличие от однопоточного исполнения перфоманс будет выше т.к. потоков несколько, целый пул, т.е. сколько угодно ядер можно загрузить, если запросы в большинстве случаев будут с разными SubjectId.

Главное чтобы тут все не было покрыто lock-ами или их аналогами, что сильно порежет перфоманс изза простоя ядер CPU.

Как мне видится на первый взгляд тут нужен HashMap с ключем SubjectId и значение List т.е. все сообщения которые по этому SubjectId.
И куча обвязки в виде начал и конца обработки, выбора нужного SubjectId и т.п.

Тут есть сходство с акторами из Akka, но я не эксперт в них. Но самое главное что в них не устраивает на первый взгляд - каждый actor это инстанс через new и со своей очередью, а если в большинстве случаев у нас разные SubjectId то расточительно по памяти иметь по инстансу класса со своей очередью на один-два Message да плюс не известно как оно по перфомансу будет в таком кол-ве акторов. Например если у нас SubjectId от 1 до 1_000_000 то создастся 1_000_000 акторов, у каждого своя очередь, что вероятно траблы (надо профайлить).

__ update

глобальный порядок не нужен (действительно если бы нужен был - только в однопотоке можно это сделать), а вот локальный желателен

и если получится - глобальный хоть сколько-нибудь нужен в том плане чтобы не висели задачи в очереди вечно, например если придет 1я задача, 2я .. 1000я, не надо чтобы 1я висела до окончания веков, потому что новые задачи будут появляться (1000я-2000я и т.п)

Вопрос задан более трёх лет назад
149 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

jcmvbkbc @jcmvbkbc

Если нет, возвращает Message в конец очереди и берёт следующий из начала.

если в очереди было больше одного сообщения с этим ID их порядок после этого действия будет нарушен.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

jcmvbkbc, если необходима гарантия порядка, то о максимально возможной производительности придётся забыть.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

о максимально возможной производительности придётся забыть.

Сергей Горностаев, чего это? можно, например, заводить промежуточную очередь ассоциированную с ID и складывать все сообщения с этим ID вынутые из основной очереди в неё.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

jcmvbkbc, это гарантирует порядок обработки в рамках одного идентификатора, но не всех. Является ли это достаточным условием известно только автору вопроса. Я обычно сталкивался с ситуациями когда нужна либо глабальная гарантия упорядоченности, либо ненужна вовсе.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

это гарантирует порядок обработки в рамках одного идентификатора, но не всех

Сергей Горностаев, мне показалось, что из постановки задачи именно это и следует. Если требуется глобальный порядок вообще нет смысла потоки заводить.

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

jcmvbkbc, глобальный порядок не нужен (действительно если бы нужен был - только в однопотоке можно это сделать), а вот локальный желателен

и если получится - глобальный хоть сколько-нибудь нужен в том плане чтобы не висели задачи в очереди вечно, например если придет 1я задача, 2я .. 1000я, не надо чтобы 1я висела до окончания веков, потому что новые задачи будут появляться (1000я-2000я и т.п)

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

jcmvbkbc,

заводить промежуточную очередь ассоциированную с ID и складывать все сообщения с этим ID вынутые из основной очереди в неё.

да я тоже первоначально подумал что придется иметь несколько очередей
1) та что исполняется - возможно в виде статусов, или не очередь вовсе а HashSet[SubjectId]
2) та что отложена - HashMap[SubjectId, List[Message]] изза того что уже исполняется с таким же
.. но вот думаю есть ли такие имплементации, чтобы уже отлажено все было
вроде задача разумная, всмысле с многопотоком связана, неужто никто так не делает

Написано более трёх лет назад
AlexHell @AlexHell Автор вопроса

Сергей Горностаев ,

Если блокировка удалась, поток выполняет свою работу. Если нет, возвращает Message в конец очереди и берёт следующий из начала. Остаётся только подобрать эффективный размер массива блокировок.

интересный подход, да только тут нюанс с локальным порядком все портит - он полностью реверсным станет или вообще хаотичным

а скажите что имели ввиду под размером массива блокировок.. разьве массив не должен быть равен кол-ву SubjectId ?

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

AlexHell, гарантия упорядоченности всё очень сильно усложняет. Готовое решение вы вряд ли найдёте, придётся городить свои структуры данных.

а скажите что имели ввиду под размером массива блокировок.. разьве массив не должен быть равен кол-ву SubjectId ?

Это был бы перерасход ресурсов. Хорошая хэш-функция позволяет сводить огромные диапазоны возможных значений к небольшим. Например striped lock в ConcurrentHashMap по умолчанию содержит всего 16 блокировок, хотя количество уникальных ключей теоретически бесконечно.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 82 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Как сделать проект-конструктор с зависимостями на Django с переделкой существующей админки?
- 1 подписчик
- 13 апр.
- 84 просмотра
0

ответов
Android

+3 ещё

Простой
Нужно опенсорс приложение для Андройд для ESP32 painless mash?
- 1 подписчик
- 10 апр.
- 78 просмотров
0

ответов
Python

+1 ещё

Простой
Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?
- 1 подписчик
- 10 апр.
- 88 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Как разделять относительно одинаковые скрипты между клиентами?
- 2 подписчика
- 03 апр.
- 190 просмотров
3

ответа
Программирование

+2 ещё

Простой
Альтернативы SourceTrail?
- 3 подписчика
- 28 мар.
- 222 просмотра
0

ответов
Мобильная разработка

+1 ещё

Средний
Дальнейшие этапы в создании Приложения после создания прототипа?
- 3 подписчика
- 25 мар.
- 1286 просмотров
8

ответов
Windows

+3 ещё

Простой
Есть в Windows API для задания тега Write Combining для моей области памяти?
- нет подписчиков
- 25 мар.
- 79 просмотров
2

ответа
Программирование

Простой
Как сделать на сайте автоматическое открытие другого сайта?
- 1 подписчик
- 24 мар.
- 153 просмотра
1

ответ
Django

+2 ещё

Простой
Веб-приложение на Django и фоновый процесс обработки данных, как сделать?
- 1 подписчик
- 23 мар.
- 140 просмотров
2

ответа
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Gulp, handlebarsjs - изменение темы сайта на ghost cms

18 апр. 2024, в 10:31

8000 руб./за проект

Symfony, Vue - Сервис автоматизации бизнеса натяжных потолков

18 апр. 2024, в 10:29

700 руб./в час

Разработка Проксированной Точки Доступа из Raspberry pi 3b

18 апр. 2024, в 10:29

3000 руб./за проект

Answer 1 · 2020-02-20 03:35:32

Выглядит как обычный striped lock. Берёте обычную очередь, обычный пул потоков и заполняете массив экземплярами Lock. Поток в начале работы берёт Message из очереди, получает из него SubjectId, вычисляет его хэш и пытается захватить блокировку из соответствующего хэшу элемента массива. Если блокировка удалась, поток выполняет свою работу. Если нет, возвращает Message в конец очереди и берёт следующий из начала. Остаётся только подобрать эффективный размер массива блокировок.

Answer 2 · 2020-02-20 06:22:09

Думаю надо почитать про "Очереди сообщений" и сервис RabbitMQ https://habr.com/ru/post/150134/
"Это как раз то что вам НУЖНО, Поттер"

Есть ли структура данных для многопоточной обработки с лимитами не-параллельности по ID?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт