Как оптимально найти подмножества в наборе данных многие-ко-многим?

Question

Сергей Соколов @sergiks

♬♬

Как оптимально найти подмножества в наборе данных многие-ко-многим?

Есть два класса с отношением многие-ко-многим: напр. юзеры (U) и сообщества (C), в которых они состоят. Один юзер может состоять в нескольких сообществах, и в сообществе может быть несколько юзеров.

Мы знаем, кто в каком состоит. Можно представить данные в любом удобном виде. Пока остановился на таком:

c1: [u1, u2, u3],
c2: [u1, u2, u4],
c3: [u2, u3, u5, u6],
...

«Ядрами» называю отношения с, как минимум, двумя участниками с каждой стороны. В этом примере – два «ядра»:

[u1, u2] => [c1, c2],
[u2, u3] => [c1, c3],

Как найти все ядра среди довольно крупных данных?

Кроме перебора всех возможных комбинаций пока ничего не пришло в голову. Очень неэффективно на больших наборах (десятки тысяч с каждой стороны).

Вопрос задан более трёх лет назад
370 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

9 комментариев

Сергей Соколов @sergiks Автор вопроса, куратор тега Алгоритмы

Я хотел это решать на клиенте, на JS.

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега Алгоритмы

p.s. задача динамическая, наборы всякие раз новые, получаются вживую с API стороннего сервиса.

Написано более трёх лет назад
Армянское Радио @gbg

Вы будете тащить на клиента несколько десятков тысяч строк вместо маленького запросика в базу?

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега Алгоритмы

Армянское Радио: да, их в любом случае тащить со стороннего сервиса. Каждый раз заново.

Написано более трёх лет назад
Армянское Радио @gbg

Сергей Соколов: обрабатывать это на клиенте будет накладнее, чем на сервере - например, если клиент сидит на 2G, он сочтет ваше приложение чрезвычайным тормозом, а все потому, что вы используете клиента вместо прокси. А так вам ничто не мешает поступить аналогично классике строительства БД - сразу записывайте значения в коллекцию вида [ид первого, ид второго]

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега Алгоритмы

уходим в детали архитектуры, а не алгоритма. У меня задача именно без серверных БД, уже имея на руках исходные данные, найти наиболее «тяжёлые» подгруппы, масса считается как (число юзеров * 2 + число сообществ). При этом хочется сократить вложенность циклов.

Задача представляется относительно типовой, но не знаю как называется, где искать алгоритм.

Написано более трёх лет назад
Армянское Радио @gbg

Сергей Соколов: То, что вы обозвали "ядром", в теории графов называется "кликой". Алгоритмов поиска клик достаточно много.

Написано более трёх лет назад
Армянское Радио @gbg

Сергей Соколов: Статья о кликах

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега Алгоритмы

Армянское Радио: о спасибо за «клику»! Возможно, то, что надо.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 286 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 201 просмотр
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 175 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 343 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 181 просмотр
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 157 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 244 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 192 просмотра
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 315 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2015-03-22 07:47:19

Есть простое решение за (число сообществ)*(число связей "пользователь-сообщество").

Для каждого сообщества Y:
- заводим массив R[C], где C - число сообществ
- для каждого пользователя X из сообщества Y:
- - для каждого сообщества M, в которое входит пользователь X: R[M]=R[M]+1
- для каждого сообщества M: если M!=Y и R[M] > 1, то пара (Y,M) - ядро.

Быстрее пока не получается.

Answer 2 · 2015-03-21 13:49:08

Храните сами "ядра" в классической реляционной базе "многие ко многим". Три таблицы - пользователи, группы, связи.
строки в таблице связи: ид пользователя, ид группы.

Answer 3 · 2015-03-21 13:42:30

Стоит подумать о том что бы преобразовать структуру в граф, что бы была связь не только между сообществом и пользователем но и наоборот. Так перебор будет уже эффективнее. Так же если данных много можно вооружиться neo4j

Answer 4 · 2015-03-21 15:16:10

Для начала рассмотрим произвольный граф. Каждая вершина будет сообществом, а на каждое ребро посадим по два юзера. Юзер принадлежит сообществу, если его ребро касается соответствующей вершины. Для такого примера будет Omega(C^2) ядер, все различные. Это накладывает некоторые нижние оценки на алгоритм.

Тривиальный способ будет работать за O(C^2 U) + сортировка юзеров в каждом сообществе. Понятно, что сравниваем сообщества попарно, и ищем пересечение за линию по отсортированным спискам.

Можно улучшить алгоритм через минхэш (en.wikipedia.org/wiki/MinHash) заплатив точностью. Минхэш позволяет считать символ Жаккара -- размер пересечения двух множеств делить на размер объединения. Можно отсеять только крупные пересечения.

Как оптимально найти подмножества в наборе данных многие-ко-многим?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт