Как лучше организовать многопоточное добавление данных в словарь (Dictionary)?

Question

Андрей @soundie

Преподаватель, программист, писатель

Как лучше организовать многопоточное добавление данных в словарь (Dictionary)?

Есть обычный словарь (ключ-значение):
Dictionary<int, string> dict

В словарь с частотой в несколько миллисекунд добавляются строки из трёх-пяти потоков (Threads) простым методом присваивания:
dict[i] = "какая-то строка";

Иногда ключ может совпадать, то есть будет не добавление новой строки, а обновление существующей. В интернете на stackoverflow пишут что вышеуказанная строчка потокобезопасна, поэтому проблем не будет (и действительно я вижу что ошибки в программе не вылетают). Но так как данных много и скорость их обновления высока, то проверить достоверно целостность очень трудно - мало ли, может что и пропускается.

Стали терзать сомнения, открыл статью Албахари про параллелизм, и он в данном случае рекомендует использовать тип ConcurrentDictionary для этого вместо обычного Dictionary (но оговаривает что сие будет медленнее - особенно когда периодически вызывается dict.Count), либо использовать вот такую конструкцию добавления/обновления (говорит что она быстрее в 3 раза):

lock (dict)
{
    dict[i] = "что-то";
}

А в третьем источнике Эндрю Лок рекомендует использовать Interlocked.Exchange.

Чей метод будет лучше в плане обеспечения наилучшей целостности данных и скорости для поставленной задачи? Или может для таких случаев подойдут in-memory базы данных (вроде как они лучше всего ориентированы на такие многопоточные добавления/обновления)?

Вопрос задан более трёх лет назад
193 просмотра

9 комментариев

Подписаться 1 Средний 9 комментариев

Василий Банников @vabka

Как эти данные потом используются?
Как ещё вариант - всем пишущим выдать ChannelWriter и кидать в канал команду типа "записать по ключу x значение y"
И на выделенном потоке звать в цикле ChannelReader и работать с этим словарём.

Но надо смотреть на то, как эти данные потом используются.

Написано более трёх лет назад
Андрей @soundie Автор вопроса

Василий Банников, в словаре данные накапливаются до 1000 значений и как только накопилось, то отдельной асинхронной задачей записываются в PostgreSQL. При этом словарь очищается и снова накапливает значения.

Написано более трёх лет назад
Василий Банников @vabka

soundie, тогда вариант с каналом выглядит как решение.
Советую попробовать System.Threading.Channels.

Из N потоков будешь писать в канал операции, а в N+1 потоке накапливать в обычный словарь записи и отправлять их в постгрес.

Написано более трёх лет назад
Василий Банников @vabka

soundie, А в этих других потоках читать нужно данные, которые уже записаны в словарь?

Написано более трёх лет назад
Андрей @soundie Автор вопроса

Василий Банников, нет, 3-5 потоков только записывают данные, а главный поток отслеживает Count и сохраняет в базу при превышении 1000.

Написано более трёх лет назад
Василий Банников @vabka

soundie, тогда точно канал подходит.
Ещё и никаких цикличных проверок на Count не придётся делать - сразу как набралось можно будет отправлять.

Написано более трёх лет назад
Андрей @soundie Автор вопроса

Василий Банников, у Эндрю Лока (вроде бы у него) тоже про каналы как-то давно вычитывал, но побоялся из-за неопытности реализовывать. Теперь уверенности добавилось - рассмотрю эту тему, благодарю!

Написано более трёх лет назад
Василий Банников @vabka

soundie, а что там сложного? На отправляющей стороне await ch.Send, а на принимающей - await foreach(var msg = ch.ReadToEnd())

Написано более трёх лет назад
Андрей @soundie Автор вопроса

Василий Банников, нашёл где впервые увидел теорию про каналы (автор не Лок, но Лок как раз этот курс и рекомендовал) - там всё было реализовано в достаточно сложном исполнении с привлечением даже сервиса очередей сообщений Amazon SQS, поэтому вся эта сложность сразу и оттолкнула. Но сейчас уже вижу что да - тема вполне несложная, просто не с той стороны подошёл с ней впервые знакомиться :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия C#-разработчик

12 месяцев

Далее
Merion Academy

C# разработчик с нуля

4 месяца

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Средний
Как наиболее просто игроку изменять модель игрового объекта в Unity?
- 1 подписчик
- 10 дек.
- 62 просмотра
1

ответ
C#

+2 ещё

Простой
Каков вектор развития legacy-проекта на WinForms?
- 1 подписчик
- 03 дек.
- 182 просмотра
1

ответ
C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 137 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 108 просмотров
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 298 просмотров
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 150 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 368 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 101 просмотр
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 120 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 324 просмотра
0

ответов
Показать ещё Загружается…

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Senior Pentester / Red Team Specialist

Ubiex

от 300 000 ₽

Как эти данные потом используются?
Как ещё вариант - всем пишущим выдать ChannelWriter и кидать в канал команду типа "записать по ключу x значение y"
И на выделенном потоке звать в цикле ChannelReader и работать с этим словарём.

Но надо смотреть на то, как эти данные потом используются.
Василий Банников, в словаре данные накапливаются до 1000 значений и как только накопилось, то отдельной асинхронной задачей записываются в PostgreSQL. При этом словарь очищается и снова накапливает значения.
soundie, тогда вариант с каналом выглядит как решение.
Советую попробовать System.Threading.Channels.

Из N потоков будешь писать в канал операции, а в N+1 потоке накапливать в обычный словарь записи и отправлять их в постгрес.
soundie, А в этих других потоках читать нужно данные, которые уже записаны в словарь?
Василий Банников, нет, 3-5 потоков только записывают данные, а главный поток отслеживает Count и сохраняет в базу при превышении 1000.
soundie, тогда точно канал подходит.
Ещё и никаких цикличных проверок на Count не придётся делать - сразу как набралось можно будет отправлять.
Василий Банников, у Эндрю Лока (вроде бы у него) тоже про каналы как-то давно вычитывал, но побоялся из-за неопытности реализовывать. Теперь уверенности добавилось - рассмотрю эту тему, благодарю!
soundie, а что там сложного? На отправляющей стороне await ch.Send, а на принимающей - await foreach(var msg = ch.ReadToEnd())
Василий Банников, нашёл где впервые увидел теорию про каналы (автор не Лок, но Лок как раз этот курс и рекомендовал) - там всё было реализовано в достаточно сложном исполнении с привлечением даже сервиса очередей сообщений Amazon SQS, поэтому вся эта сложность сразу и оттолкнула. Но сейчас уже вижу что да - тема вполне несложная, просто не с той стороны подошёл с ней впервые знакомиться :)

Answer 1 · 2022-07-01 17:30:17

Несколько мыслей.

1. In-memory базы данных будут медленнее чем C# структуры данных. Им ведь надо перекидывать данные через границу процесса. Память не шарится соотв - сериализация-сетевые сокеты пускай даже локальные. Все это будет медленнее.

2. Я не знаю ни одной структуры данных которая-бы себя хорошо вела при конкуретнтной вставке. Concurrent - коллекции нужно только в том случае когда результат вставки в ту-же милисекунду нужен вам на чтение как результат из другого потока. Это очень строгое требование и реально очень мало систем им обладают. Я-бы предложил следующее. Если 5 потоков пишут независимо без обратной связи - то пускай пишут в буферы в несколько килобайт. И пускай 6 поток периодически собирает эти буферы. Так можно уменьшить конкуренцию. Лаг можно регулировать. Сколько хотим? 10 мс? 100мс?

Еще вариант - потоки пишут каждый в свой Dictionary. И периодически происходит merge. Пакетом. Тут надо померять performance. Вообще в конкурирующих работах с key-value ищут возможность сделать partitioning. Если удасться то будут конкурировать максимум 2 потока а не 5.

Answer 2 · 2022-07-01 18:52:09

многопоточное добавление данных в словарь

Dictionary не потокобезопасен, по тому при обращении к нему из нескольких потоков нужно синхронизировать потоки (желательно при любых обращениях)

Лучше использовать ConcurrentDictionary - в нём уже решены потенциальные проблемы при конкурентном доступе (например попытке изменить запись, которая уже удалена в другом потоке или удаление удалённой, или создании уже существующей, или чтении несуществующей/удалённой)

Interlocked exchange лучше смотреть по месту, может подойдёт, а может нет.

На счёт инмемори базы тоже следует посмотреть на конкретную задачу.

UPD: ещё как хорошее решение звучит использование System.Threading.Channels, раз задача стоит накапливать записи и батчем их отправлять в СУБД.
Так мы гарантированно решаем проблему гонок, так как фактически менять данные будет только один поток

Как лучше организовать многопоточное добавление данных в словарь (Dictionary)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт