Задача со множествами, помогите решить

Question

un1t @un1t

Алгоритмы

Задача со множествами, помогите решить

Есть набор множеств

set(1, 2)
set(3)
set(4, 5)
set(3, 2, 6)
set(6)
set(7, 8)
set(9, 8)

Нужно объединить все множества которые пересекаются.

Так например set(1, 2) нужно объединить с set(3, 2, 6) и с set(3). Аналогично нужно проделать со всеми множествами.

Результат должен получиться такой:

set(1, 2, 3, 6)
set(4,5)
set(7, 8, 9)

Дополнительные условия.
Количество множеств — 5 миллионов.
Множества выбраны таким образом, что одно множество в среднем объединяется с 1-5 другими множествами. Будем считать, что количество множеств с которым может быть объединено любое множество из этого набора никогда не превышает 10.

Я могу придумать какие-то алгоритмы, но у них всех сложность n^2. И это выполняется очень долго. Хотелось бы получить линейный алгоритм.

Вопрос задан более трёх лет назад
4081 просмотр

4 комментария

Подписаться 5 Оценить 4 комментария

agmt @agmt

Как я понял, это задача кластеризации/поиска связного графа? Какова мощность множества, подмножествами которого являются перечисленные выше множества?
Если к «Есть набор множеств» добавить «set(10)», то будет ли в результате «set(10)»?

Написано более трёх лет назад
un1t @un1t Автор вопроса

> Как я понял, это задача кластеризации?
Похоже на то.

> Какова мощность множества, подмножествами которого являются перечисленные выше множества?
В среднем числов элементов результирующих множествах 2-5. Можно считать что боллее 10 элементов не бывается.

>Если к «Есть набор множеств» добавить «set(10)», то будет ли в результате «set(10)»?
Да

Написано более трёх лет назад
agmt @agmt

> В среднем числов элементов результирующих множествах 2-5. Можно считать что боллее 10 элементов не бывается.
Я про то число, которое в итоге выльется в количество вершин графа (см. решение «Mephi1984»), ибо от этого зависит представление графа, а значит и сложность поиска.

Написано более трёх лет назад
un1t @un1t Автор вопроса

Вершин графа в этом случае будет около 2,5 миллионов.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

5 комментариев

un1t @un1t Автор вопроса

Идея кажется интересной, но не могли бы вы пояснить.

> Создать k множеств из одного элемента.
соддаем —
set(1), set(2), set(3), set(4), set(5), set(6), set(7), set(8), set(9)
вот только как их дальше использовать?

> Далее проходим по исходным множествам, считая каждое множество запросом на объединение.
> А именно, проходим по элементам множества и объединяем множество, соответствующее
> текущему элементу со множеством, соответствующим предыдущему.

Т.е. первая итерация пробуем объединить set(1, 2) и set(3).

Я понимаю что подход с объединениме наверно имел бы смысл, если множества первоначально упорядочить, так чтобы множества которые возможно объединить шли последовательно.

Написано более трёх лет назад
B@rmaley.e><e @barmaley_exe

Использовать в соответствии с интерфейсом структуры (опять же см. статью). Она позволяет оперировать с множествами посредством их представителей — элементов этих множеств. По сути, структура умеет выполнять запросы вроде «объединить множество, содержащее x, с множеством, содержащим y». При этом на каждом шаге алгоритма каждый элемент принадлежит только одному множеству (данные множества не имеют ничего общего с исходными множествами!).

Данный подход не зависит от порядка, в котором перебираются исходные множества, т.к. мы лишь вызываем операцию объединения, которая является ассоциативной.

Написано более трёх лет назад
un1t @un1t Автор вопроса

Т.е. вначале мы создаем данную структуру из исходных данных.

make_set(1)
make_set(2)
make_set(3)
make_set(4)
make_set(5)
make_set(6)
make_set(7)
make_set(8)
make_set(9)

unite(1, 2)
unite(4, 5)
unite(3, 2)
unite(2, 6)
unite(7, 8)
unite(9, 8)

В результате у нас получается мапка {1: 2, 2: 6, 3: 2, 4: 5, 5: 5, 6: 6, 7: 8, 8: 8, 9: 8}

А как нам из этого получить объединенные множества?

Написано более трёх лет назад
B@rmaley.e><e @barmaley_exe
Для предложенного набора множеств последовательность запросов может быть такой:

for i in [1..9] make_set(i) set(1, 2): unite(1,2) set(3): nop set(4, 5): unite(4,5) set(3, 2, 6): unite(3,2), unite(2,6) set(6): nop set(7, 8): unite(7,8) set(9, 8): unite(9,8)
Результатом будут множества {1,2,3,6}, {4,5}, {7,8,9}. Получить их можно так: пройдёмся по номерам от 1 до k, для каждого номера x вызывая find_set(x) — это будет идентификатор соответствующего множества. Его можно использовать, например, с map'ой, которая по id будет отдавать соответствующее множество.

К слову: предложенный подход полностью аналогичен вариантам с графами. Только здесь граф не строится явно.
Написано более трёх лет назад
un1t @un1t Автор вопроса

Спасибо, теперь все встало на свои места. Осталось только протестировать на реальных данных.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 266 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 179 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 200 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 169 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 326 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 177 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 153 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 312 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Как я понял, это задача кластеризации/поиска связного графа? Какова мощность множества, подмножествами которого являются перечисленные выше множества?
Если к «Есть набор множеств» добавить «set(10)», то будет ли в результате «set(10)»?
> Как я понял, это задача кластеризации?
Похоже на то.

> Какова мощность множества, подмножествами которого являются перечисленные выше множества?
В среднем числов элементов результирующих множествах 2-5. Можно считать что боллее 10 элементов не бывается.

>Если к «Есть набор множеств» добавить «set(10)», то будет ли в результате «set(10)»?
Да
> В среднем числов элементов результирующих множествах 2-5. Можно считать что боллее 10 элементов не бывается.
Я про то число, которое в итоге выльется в количество вершин графа (см. решение «Mephi1984»), ибо от этого зависит представление графа, а значит и сложность поиска.
Вершин графа в этом случае будет около 2,5 миллионов.

Answer 1 · 2013-06-18 09:50:52

Обозначим: n — количество множеств, m — суммарное количество элементов во множествах, k — количество уникальных элементов в объединении всех множеств.

Решение за O(m):
Создать k множеств из одного элемента. Далее проходим по исходным множествам, считая каждое множество запросом на объединение. А именно, проходим по элементам множества и объединяем множество, соответствующее текущему элементу со множеством, соответствующим предыдущему. Чтобы делать это быстро пригодится структура система непересекающихся множеств. Эта структура позволяет выполнять нужные операции в среднем столь быстро, что можно считать их O(1) (хотя, строго говоря, асимптотика там не константная, см. статью).
В результате такого прохода мы обработаем каждый из m элементов один раз, затратив на него ≈O(1) времени. Отсюда получается оценка O(m).
В худшем случае такой алгоритм будет работать за O(n*k) (в каждом множестве можно избавиться от повторов, поэтому элементов в нём будет не более k).

Мне кажется, предложенный алгоритм является оптимальным: в любом случае нужно рассмотреть каждый элемент каждого множества, что даёт оценку в минимум O(m) операций.

Answer 2 · 2013-06-18 10:35:36

Постройте граф, где каждый элемент — вершина, а ребра обозначают принадлежность к одному множеству. При этом если одну и ту же пару элементов содержат несколько множеств, одного ребра достаточно. Такой граф строится за один проход.

Искомые множества — связные подграфы полученного графа.

Кстати, для работы с графами могу посоветовать соответствующую библиотеку из boost, если подразумевается C++.

Answer 3 · 2013-06-18 09:55:00

Вот такая у меня идея.
Из всех множеств берем все числа — получаем N чисел, и сделаем из них граф с N вершинами.
Затем для каждого множества — соединяем вершины. То есть например множество (7,8,9) связывает двумя ребрами три вершины: 7 — 8 — 9.
Затем из полученного графа вычисляем компоненты связности. Википедия пишет, что время выполнения — линейное.

Answer 4 · 2013-06-18 09:48:02

1. Выписать уникальные цифры, напротив них поставить индексы множеств.

1 — 0
2 — 0, 3
3 — 1, 3
4 — 2
5 — 2
6 — 3, 4
7 — 5
8 — 5, 6
9 — 6

2. Опустить уникальные цифры, где количество индексов множеств меньше 2

2 — 0, 3
3 — 1, 3
6 — 3, 4
8 — 5, 6

3. Совместить индексы множеств сокращенного списка

0, 3, 1, 4
5,6

4. Узнать индекс пропущенных множеств

2

5. Совместить множества в ответ. Готово.

Не очень линейно, да. Может, натолкнет…

Задача со множествами, помогите решить

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт