Как сделать много вставок в HashMap за минимальное время?

Question

Eugene Usachev @Eugene-Usachev

Rust

Как сделать много вставок в HashMap за минимальное время?

Немного предыстории. Я решил померить скорость записи в map Rust. Создал импровизированную key-value субд. Мысль очень проста, создаём таблицу, дальше в таблицу кладём данные. Таблица - обычный hashmap. В синхронной версии всё работает, но медленно (во-первых, я вынужден вызывать get у map дважды, во-вторых, писать синхронно в целом долго). Появилась странная мысль: создать n map и при помощи id % n получать название map, куда писать данные. Таким образом можно распараллелить код и, в теории, линейно увеличить скорость записи. Однако я только изучаю Rust и у меня просто огромные проблемы с асинхронным кодом. Я слышал про tokio, который очень популярный и позиционирует себя быстрым (сразу вопрос знатокам, есть ли что-то быстрее?) и решил им воспользоваться. Код вышел таким:

Длинный код

use std::borrow::BorrowMut;
use std::collections::HashMap;
use std::sync::Arc;
use std::time::{Instant};
use tokio::task;

struct Table {
    data: HashMap<String, String>,
}

impl Table {
    fn new() -> Self {
        Self {
            data: HashMap::new(),
        }
    }

    async fn set(&mut self, name: String, value: String) {
        self.data.insert(name, value);
    }

    fn get(&self, name: String) -> Option<String> {
        return self.data.get(&name).cloned();
    }
}

struct TableManager {
    tables: HashMap<String, Table>,
}

impl TableManager {
    fn new() -> Self {
        return Self {
            tables: HashMap::new(),
        }
    }

    fn create_table(&mut self, name: String) {
        self.tables.insert(name, Table::new());
    }

    async fn set(&mut self, name: String, key: String, value: String) {
        self.tables.get_mut(&name).unwrap().set(key, value).await;
    }

    fn get(&self, name: String, key: String) -> Option<String> {
        return self.tables.get(&name).unwrap().get(key);
    }

    fn delete_table(&mut self, name: String) {
        self.tables.remove(&name);
    }
}

#[tokio::main(flavor = "multi_thread", worker_threads = 1024)]
async fn main() {
    let mut manager = Arc::new(TableManager::new());
    manager.create_table("table1".to_string());
    manager.create_table("table2".to_string());
    manager.create_table("table3".to_string());
    manager.create_table("table4".to_string());

    let start = Instant::now();

    let mut tasks = vec![];

    for i in 0..3000000 {
        let table_name = format!("table{}", i % 4 + 1);
        let mut manager = manager.borrow_mut();
        let task = task::spawn(async move {
            manager.set(table_name, format!("{}", i), format!("value{}", i)).await;
        });
        tasks.push(task);
    }

    for task in tasks {
        task.await.unwrap();
    }

    let elapsed = start.elapsed();

    println!("Time taken to set 3,000,000 keys: {:?}", elapsed);
}

Проблема в

error[E0596]: cannot borrow data in an `Arc` as mutable
--> src\main.rs:79:13
|
79 | manager.set(table_name, format!("{}", i), format!("value{}", i)).await;
| ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ cannot borrow as mutable
|
= help: trait `DerefMut` is required to modify through a dereference, but it is not implemented for `Arc`

Тут я упёрся в стену. Ошибка мне понятно, но, как её исправить, я не представляю.
Так же пару дополнительный вопросов (можете не тратить время, они мне не так важны):
1 - есть ли что-то быстрее, чем tokio
2 - правильно ли я использую tokio
3 - насколько хорошая с точки зрения производительности идея использовать Arc
4 - можно ли ускорить саму по себе структуру HashMap или только переписывать?

Вопрос задан более двух лет назад
413 просмотров

6 комментариев

Подписаться 3 Простой 6 комментариев

mayton2019 @mayton2019

В синхронной версии всё работает, но медленно (во-первых, я вынужден вызывать get у map дважды, во-вторых, писать синхронно в целом долго).

Сколько времени у тебя занимает загрузка 3 млн ключей в синхронной версии?

Написано более двух лет назад
Eugene Usachev @Eugene-Usachev Автор вопроса

mayton2019, 4 секунды. Это дорого, на самом деле.

Написано более двух лет назад
Hemul GM @HemulGM

Eugene-Usachev, а в твоей "асинхронной" реализации будет дольше работать

Написано более двух лет назад
mayton2019 @mayton2019

Eugene-Usachev, в мае месяце ты хотел вкатиться в айти а в июле уже критикуешь структуры данных Rust.

Молодца..

Вообще async созданы для операций I/O. Условия таковы. Есть к примеру одно устройсво. Сетевушка или диск.
Оно не параллелится нифига. Такова его природа. И оно блокирует 1000000 потоков. Потоки-ждуны.
Сидят и ждут пока медленное устройство раздуплиться. Вот. Но ждать можно по разному. Вот технология
async это один из видов ожидания.

А ты чего хотел вообще от асинка получить в данном примере?

Написано более двух лет назад
Василий Банников @vabka Куратор тега Rust

Скорее всего ты не тем путём пошёл.
1. HashMap не оптимизирован для параллельного доступа
2. Arc нужен для подсчёта ссылок, а чтобы контролировать соблюдение правил владения (чтобы можно было вызвать метод, который требует &mut) - тебе ещё нужен какой-нибудь примитив синхронизации (RwLock или Mutex). На синхронизацию потоков ещё куча ресурсов уйдёт.
3. Ты кроме HashMap ещё меряешь format!

В синхронной версии всё работает, но медленно (во-первых, я вынужден вызывать get у map дважды, во-вторых, писать синхронно в целом долго).

Тут следовало показать твой код, тк вообще звучит не нормально.

Сейчас погоняю бенчмарки и предложу вариант чуть лучше.

Написано более двух лет назад
Eugene Usachev @Eugene-Usachev Автор вопроса

mayton2019, ваш вопрос выглядит очень грубым. Я вообще не понял суть претензии: "в мае месяце ты хотел вкатиться в айти а в июле уже критикуешь структуры данных Rust." В вашем представлении в айти вкатываются только те, кто умеют только кнопочки красить? Я не дружу с Rust, так как опыт работы с ним у меня ограничивается примерно 5 потраченными часами и в вопросе (можете перечитать) не критиковал структуры Rust. Я столкнулся с тем, что map не смог удовлетворить мои потребности в скорости (у меня была цель обогнать решение на Go, которое обрабатывает чуть больше миллиона вставок в секунду, так ещё и с накладными расходами). Я не смог смириться с возникшей мыслью, что Rust сам по себе медленный и решил попробовать другие подходы работы с map.

Я пишу на Go большую часть времени. В Go можно параллелить любой процесс почти бесплатно с точки зрения скорости (в памяти это будет от 2 до 80 кбайт). В Go я бы попробовал (я пробовал и там результат становился хуже) распараллелить этот процесс, чтобы писать не в один map, а в 4, к примеру. Как ниже объяснил (вежливо, кстати) Дмитрий Беляев, это не имело бы смысла, так как нагрузка "чистый CPU-bound". Я только учу Rust и приложенный код, естественно, не попал бы даже в commit. Он был нужен попробовать Rust. Если бы тест запустился (пост, напоминаю, об ошибке), я бы и сам пришёл к точно такому же выводу.

Резюмируя, я "прощупывал" возможности Rust, так как привык учить языки именно практикой (и выходит получше, чем в школе или даже в университете).

Написано более двух лет назад

Решения вопроса 2

5 комментариев

Дмитрий Беляев @bingo347

Некоторый функционал rayon уже есть в стандартной библиотеке:
https://doc.rust-lang.org/stable/std/thread/fn.sco...

Да, rayon еще много чего умеет, но как мне кажется это самая разрекламированная фишка.

Написано более двух лет назад
Василий Банников @vabka Куратор тега Rust

Дмитрий Беляев, с thread_scope нужно самому спавнить потоки, а район сам спавнит сколько нужно и интерирует.
Короче тупо меньше буков писать)

Написано более двух лет назад
mayton2019 @mayton2019

Многие новички впадают в максимализм. Если мы строим БД с обратной связью (грузим данные за 4 секунды) на 5 секунде хотим уже делать доступ к этой БД - то я спрашиваю что это за системая такая? Что за ТЗ которое обеспечит 3 миллиона RPC (транзакций) за 4 секунды и сразу-же пойдет запрашивать их? Что за дата-центр такое в состоянии создать? Я не знаю. Не видел никогда.

Задачи быстрой загрузки (bulk/batch load) да такие были. Но загрузить такой рандомный шум что автор придумал - можно было и в кольцевой буфер или в массив и потом в фоновом режиме спокойно положить в хеш-табличку. Даже системы реального времени не обязаны стартовать за реальное время. Всегда есть компромисс. Биржевые системы работают с сутошным циклом. Днем работают. Ночью - на техобслуживании. Вот вся ночь впереди. Ребутай систему. Грузи справочники хоть 8 часов. Время есть.

Лет 10 назад в одном из форумов рунета один юноша строил свою ин-мемори БД с нано-секундным откликом. Вобщем приводил много синтетических тестов. Но физика все порешала по другому. Нет сегодня
хорошей оперативной памяти с таким доступом. Есть кеши но они не для БД а для других дел.

Наносекунда - это кстати краеугольный камень перформанса. Если перевести на язык оптики - то
это 30 сантиметров пролёта света. Вот смотрите на свой системный блок и ищите сколько
пролетит свет за это маленькое время.

Вобщем новички вместо реальной задачи - создают себе синтетический тест и ловят на нем парадоксальные
эффекты. То измеряют производительность toString. То измеряют ре-аллокацию хеш-таблички. То
создают параллельные потоки.

Написано более двух лет назад
Eugene Usachev @Eugene-Usachev Автор вопроса

mayton2019, полностью с вами согласен. В тестах на Go я использовал pipelining и достигал скорости всего запроса (запрос, вставка, ответ) за 2,5 секунды. Я ещё не настолько хорошо знаю Rust, чтобы писать такую сложную систему, поэтому начал с чего попроще - с цикла. В любом случае я буду вставлять циклом (или в Rust не так?), дальше добавится счётчик пришедших запросов и работать всё это будет через pipelining.

Написано более двух лет назад
Eugene Usachev @Eugene-Usachev Автор вопроса

Василий Банников, огромное спасибо за такое количество потраченного времени! Даже стыдно заставлять опытного разработчика писать мне тесты. Я всё ещё не силён в Rust. В вопросе я поднял только скорость вставок (хотя вопрос был вообще про ошибку), однако важно ещё и скорость чтения. Например, я сильно сомневаюсь, что для такой задачи подойдёт vec. Скорость чтения там, я полагаю, основываясь на C++ и Go, O(1), но это только, если знать индекс. Hash таблица под капотом высчитывает индекс из ключа, есть подозрения (ещё не успел проверить), что vec будет сильно медленнее на чтение из неизвестного индекса. Я знаю, что в СУБД используются деревья для быстрой вставки и быстрого чтения.
Не могли бы вы по опыту сказать названия структур, которые стоит протестировать (задачи: быстрая запись и чтение)?

Написано более двух лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Eugene Usachev @Eugene-Usachev Автор вопроса

Дмитрий Беляев, я соглашусь с вами, но у меня есть вопрос. Я с Rust ещё не дружу и, возможно, неправильно провёл тесты. Но я написал небольшой тест асинхронности, как бы писал его для Go. По сути я запускал параллельно несколько функций, которые ждали по n времени и смотрел, какой способ реализации async справится быстрее всего. Tokio для этой задачи подошёл хорошо и справился быстрее всего остального, что я тестировал. Однако в стандартной реализации (без указания числа работяг) Tokio отработал на пару процентов быстрее ближайшего конкурента, с количеством работяг = 1024 он отработал почти в 20 раз быстрее стандартной реализации. Я тестировал на 6 ядерном процессоре. Почему тогда указание работяг увеличило скорость?

Написано более двух лет назад
Василий Банников @vabka Куратор тега Rust

Eugene-Usachev, скорее всего тест был некорректный и ты получил статистическую ошибку.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- вчера
- 118 просмотров
2

ответа
Rust

Простой
Как вывести клиентскую куку в приложении, которое использует Reqwest with cookie_provider()?
- 3 подписчика
- 10 авг.
- 337 просмотров
0

ответов
Rust

Простой
Как повторять цикл в дочернем потоке с заданным интервалом для последних актуальных данных?
- 1 подписчик
- 25 июл.
- 172 просмотра
1

ответ
Rust

Простой
Как поправить код для отдельного потока, чтобы обрабатывать данные по заданному времени?
- 1 подписчик
- 23 июл.
- 184 просмотра
1

ответ
Rust

+1 ещё

Простой
Как решить проблему: Error calling dlltool 'dlltool.exe': program not found?
- 1 подписчик
- 20 июн.
- 144 просмотра
1

ответ
Программирование

+1 ещё

Простой
Что такое связывание, объявление, инициализация и определение?
- 1 подписчик
- 13 июн.
- 243 просмотра
1

ответ
Rust

Простой
Как понять комментарий «non-greedy» в описании синтаксиса литерала сырой строки в байтах?
- 1 подписчик
- 17 мая
- 81 просмотр
1

ответ
Windows

+1 ещё

Простой
В чём под Windows писать на Rust'е десктопные приложения?
- 1 подписчик
- 08 мая
- 2017 просмотров
4

ответа
Assembler

+1 ещё

Средний
Не работает customasm, как исправить?
- 1 подписчик
- 29 апр.
- 89 просмотров
0

ответов
Rust

Простой
При добавление элементов в вектор, при превышении capacity, это приведет к перераспределению Vec?
- 1 подписчик
- 19 апр.
- 157 просмотров
1

ответ
Показать ещё Загружается…

Rust Developer

Magic Alchemy

от 4 000 $

Smart Contract Auditor

Wanted

До 9 000 $

Руководитель разработки (Tech Lead)

Street Falcon • Москва

от 450 000 ₽

В синхронной версии всё работает, но медленно (во-первых, я вынужден вызывать get у map дважды, во-вторых, писать синхронно в целом долго).

Сколько времени у тебя занимает загрузка 3 млн ключей в синхронной версии?
mayton2019, 4 секунды. Это дорого, на самом деле.
Eugene-Usachev, а в твоей "асинхронной" реализации будет дольше работать
Eugene-Usachev, в мае месяце ты хотел вкатиться в айти а в июле уже критикуешь структуры данных Rust.

Молодца..

Вообще async созданы для операций I/O. Условия таковы. Есть к примеру одно устройсво. Сетевушка или диск.
Оно не параллелится нифига. Такова его природа. И оно блокирует 1000000 потоков. Потоки-ждуны.
Сидят и ждут пока медленное устройство раздуплиться. Вот. Но ждать можно по разному. Вот технология
async это один из видов ожидания.

А ты чего хотел вообще от асинка получить в данном примере?
Скорее всего ты не тем путём пошёл.
1. HashMap не оптимизирован для параллельного доступа
2. Arc нужен для подсчёта ссылок, а чтобы контролировать соблюдение правил владения (чтобы можно было вызвать метод, который требует &mut) - тебе ещё нужен какой-нибудь примитив синхронизации (RwLock или Mutex). На синхронизацию потоков ещё куча ресурсов уйдёт.
3. Ты кроме HashMap ещё меряешь format!

В синхронной версии всё работает, но медленно (во-первых, я вынужден вызывать get у map дважды, во-вторых, писать синхронно в целом долго).

Тут следовало показать твой код, тк вообще звучит не нормально.

Сейчас погоняю бенчмарки и предложу вариант чуть лучше.

Answer 1 · 2023-07-16 02:47:10

Отвечая на твои вопросы:

1 - есть ли что-то быстрее, чем tokio
2 - правильно ли я использую tokio
3 - насколько хорошая с точки зрения производительности идея использовать Arc
4 - можно ли ускорить саму по себе структуру HashMap или только переписывать?

1. В твоём случае лучше взять rayon для параллельной обработки, тк tokio предназначен для асинхронного io.
2. см п1. Как именно ты tokio использовал я не смотрел. Дмитрий Беляев хорошо ответил по этому поводу
3. Плохая. Лучше взять другую структуру данных
4а. Можно процентов на 30 ускорить HashMap если заранее сделать with_capacity
4б. И в n раз ускорить если сделать несколько HashMap по одному для каждого из N потоков (и передать во владение каждому потоку, чтобы не тратиться на синхронизацию и подсчёт ссылок).
Для большого количества вставок неизвестного количества данных лучше подойдёт BTreeMap

1. ~~Многопоток тебе тут не поможет~~ (а нет, обманул. Многопоток поможет. А вот async-нет)
2. Ты бенчмаркаешь format!("{}", i)
3. Вообще тебе тут стоит посмотреть на какие-нибудь concurrency-safe lockfree структуры. Например есть достаточно популярный крейт dashmap который такое предлагает.
UPD: я обманул сам себя. dashmap не lockfree. Под капотом это как раз несколько HashMap, спрятанных за RwLock:

pub struct DashMap

pub struct DashMap<K, V, S = RandomState> {
    shift: usize,
    shards: Box<[RwLock<HashMap<K, V, S>>]>,
    hasher: S,
}

Мои бенчмарки с использованием criterion

Результат:
Обрати внимание, что тесты без format на порядок быстрее проходят.
Но я не уверен, что корректно написал бенчмарк для btree_known_key__3M

hashmap_no_capacity_format_key__3M
                        time:   [1.4810 s 1.5362 s 1.5952 s]

hashmap_set_capacity_format_key__3M
                        time:   [1.0688 s 1.0744 s 1.0804 s]

btree_format_key__3M    time:   [754.93 ms 843.10 ms 933.95 ms]


vec_set_apacity__3M     time:   [1.7122 ms 1.7309 ms 1.7655 ms]

dashmap_rayon_format_key__3M
                        time:   [294.76 ms 303.70 ms 316.85 ms]

btree_known_key__3M     time:   [554.56 ms 556.18 ms 558.41 ms]

Код

use std::{
    collections::{BTreeMap, HashMap},
    time::Instant,
};

use criterion::{black_box, criterion_group, criterion_main, Criterion};

fn hashmap_no_capacity_format_key(n: usize) -> HashMap<String, usize> {
    let mut map = HashMap::new();
    for i in 0..n {
        let key = format!("key_{i}");
        map.insert(key, i);
    }
    map
}

fn hashmap_set_capacity_format_key(n: usize) -> HashMap<String, usize> {
    let mut map = HashMap::with_capacity(n + 1);
    for i in 0..n {
        let key = format!("key_{i}");
        map.insert(key, i);
    }
    map
}

fn btreemap_format_key(n: usize) -> BTreeMap<String, usize> {
    let mut map = BTreeMap::new();
    for i in 0..n {
        let key = format!("key_{i}");
        map.insert(key, i);
    }
    map
}
fn vec_set_capacity(n: usize) -> Vec<usize> {
    let mut vector = Vec::with_capacity(n);
    for i in 0..n {
        vector.push(i);
    }
    vector
}

fn btreemap_known_key(keys: impl Iterator<Item = (String, usize)>) -> usize {
    let mut map = BTreeMap::new();
    for (k, v) in keys {
        map.insert(k, v);
    }
    map.len()
}

fn dashmap_rayon_format_key(n: usize) -> dashmap::DashMap<String, usize> {
    use rayon::prelude::*;
    let map = dashmap::DashMap::with_capacity(n);
    (0..n).into_par_iter().for_each(|i| {
        let key = format!("key_{i}");
        map.insert(key, i);
    });
    map
}
fn bench(c: &mut Criterion) {
    c.bench_function("hashmap_no_capacity_format_key__3M", |b| {
        b.iter(|| hashmap_no_capacity_format_key(black_box(3_000_000)))
    });
    c.bench_function("hashmap_set_capacity_format_key__3M", |b| {
        b.iter(|| hashmap_set_capacity_format_key(black_box(3_000_000)))
    });
    c.bench_function("btree_format_key__3M", |b| {
        b.iter(|| btreemap_format_key(black_box(3_000_000)))
    });
    c.bench_function("vec_set_apacity__3M", |b| {
        b.iter(|| vec_set_capacity(black_box(3_000_000)))
    });
    c.bench_function("dashmap_rayon_format_key__3M", |b| {
        b.iter(|| dashmap_rayon_format_key(black_box(3_000_000)))
    });
    c.bench_function("btree_known_key__3M", |b| {
        b.iter_custom(|times| {
            let mut total = vec![];

            for _ in 0..times {
                let mut keys = Vec::with_capacity(3_000_000);
                for i in 0..3_000_000 {
                    keys.push((format!("key_{i}"), i));
                }
                let start = Instant::now();
                black_box(btreemap_known_key(black_box(keys.drain(..))));
                total.push(start.elapsed());
            }
            total.iter().sum()
        });
    });
}
criterion_group! {
    name = benches;
    config = Criterion::default().sample_size(10);
    targets = bench
}
criterion_main!(benches);

Answer 2 · 2023-09-13 22:53:39

Должен отметить, что Василий Банников дал прекрасный ответ. Дальше я пошёл в увеличение количества map (срез содержит срез map, который содержат другие map) и добился скорости записи 3 000 000 элементов на моём компьютере за 180 миллисекунд (вместо 4 секунд).

И вот сейчас я наткнулся на замечательную статью от DragonflyDB https://github.com/dragonflydb/dragonfly/blob/main.... Там подход схожий с моим, советую к ознакомлению всем, кто хочет масштабировать map вертикально (за счёт числа ядер).

Answer 3 · 2023-07-16 02:51:34

Начну с того, что Вы абсолютно не понимаете зачем нужен async. Есть 2 вида нагрузки - CPU-bound и I/O-bound (где I/O - это input/output). Особенность I/O-bound нагрузки в том, что процессор большую часть времени простаивает в ожидании I/O операций (диска, сети, базы данных и т.д.). Async как раз решает эту задачу за счет кооперативной многозадачности, пока одна задача ждет ответ от I/O мы можем нагрузить CPU другой задачей. Естественно все это не бесплатно, но выигрыш тут в отсутствии простоя CPU за счет того, что мы запускаем тысячи задач на небольшом количестве потоков (в некоторых средах, вроде node.js или asyncio в python такой поток вообще 1), например tokio по-умолчанию запускает пул потоков по количеству ядер.
Из этого уже можно выделить проблемы в Вашем коде:

#[tokio::main(flavor = "multi_thread", worker_threads = 1024)]

1024 - потеряли весь профит от небольшого числа потоков, теперь ОС будет распределять 1024 потока на небольшое количество ядер CPU.

async fn set(&mut self, name: String, value: String) {
    self.data.insert(name, value);
}

у этого метода нет ни одной причины быть асинхронным, операции с HashMap - чистый CPU-bound.

Вообще, данную задачу можно распараллелить, и для этого достаточно обычных потоков:

fn main() {
    let start = Instant::now();
    let handles: Vec<_> = (0..4)
        .map(|table_index| {
            std::thread::spawn(move || {
                let mut table = Table::new();
                for i in (0..3000000).filter(|i| (i % 4 + 1) == table_index) {
                    table.set(format!("{}", i), format!("value{}", i));
                }
                table
            })
        })
        .collect();
    for handle in handles {
        let _table = handle.join().unwrap();
        // тут добавляем таблицы в менеджер
    }
    let elapsed = start.elapsed();

    println!("Time taken to set 3,000,000 keys: {:?}", elapsed);
}

и даже это можно заморочиться и улучшить, например запускать потоков не больше std::thread::available_parallelism() или оптимизировать счетчик для каждой таблицы (

(0..3000000).filter(|i| (i % 4 + 1) == table_index)

), но это я оставлю Вам в качестве д/з.

В общем, Ваша проблема не в том, что какие-то структуры/библиотеки медленные, а в том, что Вы их используете не по назначению.

Как сделать много вставок в HashMap за минимальное время?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт