Когда целесообразно использовать именно такую реализацию DSU?

Question

floppa322 @Lite_stream

Алгоритмы

Когда целесообразно использовать именно такую реализацию DSU?

Когда имеет смысл использовать иерархическую реализацию DSU, где у каждого элемента есть свой родитель, пока он не дойдёт до представителя множества (ссылка на себя), с ранговой эвристикой + сжатием путей, перед тривиальной реализацией DSU на хэш-таблице/массиве, где find() работает за O(1) (обычный вызов contains() в хэш-таблице), а union() за O(n) (здесь можно использовать что-то вроде ранговой эвристики, чтобы при переприсваивании ключей у объекдиняемых множеств, присваивать меньшему по количеству элементов множеству новые set id, используя обычный put(setElem, newSetId))

Например, в задачах вроде такой, всё равно придётся пройтись по каждому элементу и асимтотика у DSU с иерархической структурой будет даже чуть хуже - n^2 * A()

Видимо DSU на иерархической структуре даёт прирост, когда в алгоритме union() объединяет не 1 элемент с остальными, а множества сопоставимых размеров, тогда вроде бы есть смысл в такой организации DSU?

Хотя с другой стороны, если union'ов много, то рано или поздно структура выродится в ежа и тогда вариант с наивной реализацией будет лучше

Вопрос задан 14 июн.
84 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

7 комментариев

floppa322 @Lite_stream Автор вопроса

DSU выполняет две операции: проверить, принадлежат ли 2 элемента одному множеству; объеденить множества двух данных элементов. Обе за O(log*n) ассимтотически. Это не логарифм, а суперлогарифм, или обратная функция Аккермана. Это - сколько нужно двоек сложить в степенную башню, чтобы набрать n. Она растет так медленно, что ее можно считать константой на практике (она достигнет 4 только при n=2^65536 - вы столько числел не сохраните во всех датацентрах мира).

я в "n^2 * A()" под A() и имел в виду обр. аккермана

Я бы в качестве альтернативной, "тривиальной" реализации рассматривал массив пометок + списки в массиве:
для каждого элемента храним номер его множества, а для каждого номера храним список всех его элементов в списках (так же, как и в DSU, в одном массиве ссылок на следующий элемент).

те реализации, которые я видел, на вики, например, обычно не имели списка всех элементов одного множества, вот, например, та, которую для leetcode/codeforces использую DisjointSetUnion

Эта структура компактна по памяти и более быстра, чем ваши хеш таблицы. Тут можно за O(1) проверить, что два числа в одном множестве и за O(log n) объеденить два множества (амортизированно, если перекрашиваем меньшее множество).

если по какой-то причине не удалось сжать координаты (id элементов множеств), то придётся хеш таблицы использовать, а не плотные массивы

собственно я и задал вопрос, потому что ради интереса, посмотрев решения литкода на некоторые задачи, тегированные как union-find, люди зачем-то использовали disjoint set, там где можно было обойтись обычным dfs'ом, и на этой почве как раз и возник вопрос :)
вот ещё пример, большинство решений через disjoint set, но непонятно зачем, если можно сделать, например, так

Написано 15 июн.
floppa322 @Lite_stream Автор вопроса

Итак, имеем O(Log*n) vs O(1) за проверку и O(log*n) vs O(log n) за объединения.

ну и я подчеркнул, если объекдинения вида: проход dfs'ом по каждому элементу и добавление в текущее множество ровно по одному элементу, то от disjoint set'а одно название, а вот как раз обоснованное применение его видится (с ранговой эвристикой и сжатием путей), как раз когда не по одному элементу добавляется, а когда часто вызывается union() у множеств внушительных размеров, а также часто вызывается makeSet(x), то есть исходный размер всех элементов тоже растёт

Написано 15 июн.
Wataru @wataru Куратор тега Алгоритмы

floppa322,
те реализации, которые я видел, на вики, например, обычно не имели списка всех элементов одного множества, вот, например, та, которую для leetcode/codeforces использую DisjointSetUnion

Ну так это у вас DSU тарьяна и есть. Вы же процитировали описание "тривиальной" альтернативы. Список элементов в множестве нужен будет для перекраски, чтобы не проходиться по всем n элементам, а только по элементам множества. Иначе объединение будет O(n) а не O(log n) и DSU окажется еще лучше.

если по какой-то причине не удалось сжать координаты (id элементов множеств), то придётся хеш таблицы использовать, а не плотные массивы

Ну да, вместо массивов будут хешмапы. Но тогда и в DSU будет хешмап.

люди зачем-то использовали disjoint set, там где можно было обойтись обычным dfs'ом, и на этой почве как раз и возник вопрос :)

Я бы в этой задаче тоже dfs использовал. Но, может, кому-то dsu первым в голову придет. Кому-то dsu может показаться проще dfs. Проще писать, проще осмыслить, короче код.

Написано 15 июн.
floppa322 @Lite_stream Автор вопроса

Ну так это у вас DSU тарьяна и есть. Вы же процитировали описание "тривиальной" альтернативы. Список элементов в множестве нужен будет для перекраски, чтобы не проходиться по всем n элементам, а только по элементам множества. Иначе объединение будет O(n) а не O(log n) и DSU окажется еще лучше.

да точно, я просто в голове держал задачи, где можно было просто запомнить список "текущего" множества, чтобы за n не проходится по массиву, это как раз те задачи, которые dfs'ом решаются

Я бы в этой задаче тоже dfs использовал. Но, может, кому-то dsu первым в голову придет. Кому-то dsu может показаться проще dfs. Проще писать, проще осмыслить, короче код.

лично в моём понимании как раз dsu и должен давать ощутимый выигрыш, когда прилетают рандомные union'ы и добавляются новые элементы через makeSet :)

Написано 15 июн.
Wataru @wataru Куратор тега Алгоритмы

floppa322,
лично в моём понимании как раз dsu и должен давать ощутимый выигрыш, когда прилетают рандомные union'ы и добавляются новые элементы через makeSet :)

Ну, такой паттерн dfs-ом сделать сложно. Только если все union'ы заранее известны. И там эти два подхода не различимы по скорости, в общем-то. Кому что нравится. А если заранее все неизвестно, и надо именно по одному union делать, то DSU - лучше всего.

Написано 15 июн.
floppa322 @Lite_stream Автор вопроса

в общем, спасибо за ответ )
вроде примерно устаканилось в голове )

Написано 15 июн.
floppa322 @Lite_stream Автор вопроса

вот, кстати, нашёл задачу, где dsu не асимптотически, но быстрее. чем dfs, ну и даже сам код лаконичнее и яснее

конечно не очень хороший бенчмарк, но leetcode для dsu выдаёт в среднем 150 милисекунд, а для dfs 190 милисекунд, там для dfs, в частности, нужно ещё в список смежности превратить исходный массив, нужна мапа (медленная) для vertex To component, сет для used ну и сам код намного длинее выходит

вынесу этот коммент наружу топика, чтобы если кому понадобилось - сразу увидел

Написано 15 июн.

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Какой алгоритм сравнения цен между крипто биржами?
- 1 подписчик
- 17 июн.
- 90 просмотров
1

ответ
Python

+2 ещё

Средний
Как найти количество помеченных связных графов?
- 1 подписчик
- 14 июн.
- 111 просмотров
1

ответ
Java

+1 ещё

Простой
Какой правильный класс коллекции для хранения сортируемого списка?
- 1 подписчик
- 13 июн.
- 88 просмотров
3

ответа
JavaScript

+3 ещё

Средний
Как архитектурно правильно организовать классы в игре на JS. (ООП)?
- 1 подписчик
- 09 июн.
- 160 просмотров
1

ответ
C#

+3 ещё

Сложный
Почему паралельная сортировка слиянием выполняется на cpu быстрее чем на gpu в 100 раз?
- 4 подписчика
- 08 июн.
- 486 просмотров
1

ответ
PHP

+2 ещё

Простой
Можно ли сравнить большие массивы по частям?
- нет подписчиков
- 07 июн.
- 202 просмотра
2

ответа
Алгоритмы

Средний
Как найти решение для задачи?
- 1 подписчик
- 06 июн.
- 166 просмотров
3

ответа
Алгоритмы

Простой
Какое время выполнения у алгоритма поиска элемента в матрице?
- 1 подписчик
- 02 июн.
- 71 просмотр
2

ответа
Алгоритмы

Простой
С чего начать изучать алгоритмы и структуры данных?
- 1 подписчик
- 30 мая
- 141 просмотр
1

ответ
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Программист 1C

ALTAVIA • Москва

от 200 000 до 240 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

Реализовать несколько функций в плагине (C++, знакомы с sdk adobe)

20 июн. 2024, в 15:07

3000 руб./за проект

Написание книг с помощью нейросетей на долгосрочную работу

20 июн. 2024, в 14:18

1000 руб./за проект

Кастомизация модуля sale интернет-магазина на 1С Битрикс

20 июн. 2024, в 14:01

12000 руб./за проект

Answer 1 · 2024-06-15 00:12:00

DSU выполняет две операции: проверить, принадлежат ли 2 элемента одному множеству; объеденить множества двух данных элементов. Обе за O(log*n) ассимтотически. Это не логарифм, а суперлогарифм, или обратная функция Аккермана. Это - сколько нужно двоек сложить в степенную башню, чтобы набрать n. Она растет так медленно, что ее можно считать константой на практике (она достигнет 4 только при n=2^65536 - вы столько числел не сохраните во всех датацентрах мира).

Я бы в качестве альтернативной, "тривиальной" реализации рассматривал массив пометок + списки в массиве:
для каждого элемента храним номер его множества, а для каждого номера храним список всех его элементов в списках (так же, как и в DSU, в одном массиве ссылок на следующий элемент).

Эта структура компактна по памяти и более быстра, чем ваши хеш таблицы. Тут можно за O(1) проверить, что два числа в одном множестве и за O(log n) объеденить два множества (амортизированно, если перекрашиваем меньшее множество).

Итак, имеем O(Log*n) vs O(1) за проверку и O(log*n) vs O(log n) за объединения.

Т.е. вроде бы имеет смысл использовать пометки+списки, если у вас заметно больше проверок, чем объединений.

Но на практике там выигрыша нет, ибо редко когда у вас сильно больше проверок. Да и, если у вас много проверок, то оценка O(log*n) - завышена, ведь если вы одну и ту же проверку повторяете, то там пути сжимаются и проверки работают уже за O(1).

Таким образом, DSU от Тарьяна - лучше всех других структур на практике.

Answer 2 · 2024-06-15 17:46:19

Оффтоп

Вот, кстати, нашёл задачу, где dsu не асимптотически, но быстрее. чем dfs, ну и даже сам код лаконичнее и яснее

Конечно не очень хороший бенчмарк, но leetcode для dsu выдаёт в среднем 150 милисекунд, а для dfs 190 милисекунд, там для dfs, в частности, нужно ещё в список смежности превратить исходный массив, нужна мапа (медленная) для vertex To component, сет для used ну и сам код намного длинее выходит

В общем, dfs не очень работает с матрицей смежности и тем более списком ребёр (как в задаче выше), а только с списком смежности, поэтому если в задаче изначально граф дан не в нужном виде, то лучше использовать dsu, ну и также, чтобы рукам не поддерживать компоненты связности, так как это заложено в dsu. То есть если в ходе работы алгоритма нет чёткой структуры графа, или рёбра вообще появляются налету (находятся по каким-то признакам, а не даны заранее), то как раз через dsu удобно делать unite(from, to) этих рёбер

Вот ещё причину нашёл

Когда целесообразно использовать именно такую реализацию DSU?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт