Как найти повторяющиеся элементы в разных коллекциях за линейное время?

Question

Андрей Кулагин @andrew_1985

Как найти повторяющиеся элементы в разных коллекциях за линейное время?

Подскажите плиз с алгоритмом решения задачи, я представляю, что нужно сделать HashMap, ключ будет user, значение список имейлов(я могу их добавлять в hashset например), как потом находить в разных коллекциях повторяющиеся элементы за линейное время?

Имеется n пользователей, каждому из них соответствует список email-ов
(всего у всех пользователей m email-ов).
Например:
user1 ->xxx@ya.ru,foo@gmail.com,lol@mail.ru (xxx@ya.ru,foo@gmail.com,lol@mail.ru)
user2 ->foo@gmail.com,ups@pisem.net (foo@gmail.com,ups@pisem.net)
user3 ->xyz@pisem.net,vasya@pupkin.com (xyz@pisem.net,vasya@pupkin.com)
user4 ->ups@pisem.net,aaa@bbb.ru (ups@pisem.net,aaa@bbb.ru)
user5 ->xyz@pisem.net
Считается, что если у двух пользователей есть общий email, значит это
один и тот же пользователь. Требуется построить
и реализовать алгоритм, выполняющий слияние пользователей. На выходе
должен быть список пользователей с их email-ами (такой же как на
входе).
В качестве имени объединенного пользователя можно брать любое из
исходных имен. Список email-ов пользователя должен содержать только
уникальные email-ы.
Параметры n и m произвольные, длина конкретного списка email-ов никак
не ограничена.
Требуется, чтобы асимптотическое время работы полученного решения было
линейным, или близким к линейному.

Вопрос задан более трёх лет назад
293 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

5 комментариев

Андрей Кулагин @andrew_1985 Автор вопроса

В Hashmap добавляю ключ - это коллекция hashset, состоящая из уникальных имейлов, а значение это user
А дальше что с этим делать?

Написано более трёх лет назад
Сергей Тихонов @tumbler

Значение - список пользователей. Если там больше чем один пользователь, можно начинать клеить: для этого нужна карта пользователь - пользователь

Написано более трёх лет назад
Андрей Кулагин @andrew_1985 Автор вопроса

Сергей Тихонов, а как тогда проверить что имейлы повторяются в разных списках?

Написано более трёх лет назад
Алексей Черемисин @leahch

Делаете хеш, ключем емейл, значением - массив id пользователей.
Вторым проходом фильтруете это хеш, если размер массива в ключе больше 1

Написано более трёх лет назад
Андрей Кулагин @andrew_1985 Автор вопроса

спасибо!

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 12 часов назад
- 78 просмотров
2

ответа
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- вчера
- 166 просмотров
3

ответа
Java

+2 ещё

Простой
Как заставить Tomcat работать c utf-8 и кириллицей?
- 1 подписчик
- вчера
- 40 просмотров
0

ответов
Java

+2 ещё

Простой
Как правильно вывести подблок с данными на странице?
- 1 подписчик
- вчера
- 24 просмотра
1

ответ
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5180 просмотров
3

ответа
Linux

+2 ещё

Средний
Можно ли задать различные права пользователя и java приложения в Linux?
- 1 подписчик
- 10 апр.
- 102 просмотра
2

ответа
Java

+1 ещё

Простой
Запуск Minecraft (1.12.2 Forge OptiFine из TLauncher) из консоли/командной строки/shell и т.д?
- 1 подписчик
- 10 апр.
- 73 просмотра
1

ответ
Java

+2 ещё

Простой
Каким образом формировать graphql запрос из кода (java, spring) используя dsl решения?
- 1 подписчик
- 09 апр.
- 37 просмотров
2

ответа
Java

+1 ещё

Простой
Почему отладчик Java в VS Cod после повторного запуска добавляет некорректный путь и автоматически вводит символ в терминал?
- 1 подписчик
- 08 апр.
- 55 просмотров
0

ответов
Алгоритмы

+1 ещё

Простой
Как узнать, входит ли игрок1 (x,y,z) в поле игрок2 (x,y,z)?
- 1 подписчик
- 08 апр.
- 186 просмотров
3

ответа
Показать ещё Загружается…

Lead Java

Bell Integrator • Ульяновск

До 400 000 ₽

Lead Java

Bell Integrator • Хабаровск

До 400 000 ₽

Java-разработчик

ДАЛЕЕ

от 200 000 ₽

Перевести логотип в формат SVG

16 апр. 2024, в 13:03

500 руб./за проект

Обновить и улучшить архитектуру приложения для Фотобудки

16 апр. 2024, в 13:03

300000 руб./за проект

Настройка self parser DLE

16 апр. 2024, в 12:48

1500 руб./за проект

Answer 1 · 2020-08-11 20:09:35

Это задача на поиск компонент связности в графе. У вас двудольный граф, но это не важно. Вершины - емейлы и пользователи, ребра - соответствие пользователя емейлу. Решается обходом в глубину или обходом в ширину. Оба решения - линейные от количества ребер (в вашем случае - общее количество емейлов).

Перенумеруйте все емейлы и всех пользователей.
Код будет проще, если емейлы и пользователи хранятся в одном и том же пространстве номеров.
Это реализуется с одним hashMap, который будет давать номер по строке, и одним массивом строк, который будет хранить изначальную строку по номеру. Вам еще понадобится булевый массив, чтобы хранить, является ли данная вершина пользователем или мейлом. При вводе получаете какую-то строку, и вызываете от нее функцию GetID(s, is_user), которая проверяет, есть ли данная строка в мапе. Если есть, возвращает номер. Если нет - дописывает строку в массив строк, записывает ее индекс в мап и возвращает его.

При вводе - постройте граф.
Храните ребра в списке смежности - массив массивов или списков, где для каждого номера-вершины вы построите список всех с ней связанных.
При вводе у вас есть номер вершины-пользователя и вы читаете емейлы и переводите их номера. При этом добавляйте номер-емейл в список для пользователя и наоборот.

Заведите массив пометок "обойденности" для всех вершин. Он будет int. 0 - непосещенные вершины, иначе номер компоненты связности.
Запустите на этом графе DFS/BFS от каждой пока не обойденной вершины в цикле и помечайте все достижимые вершины новым числом (можно передавать вторым параметром в DFS). Можно сразу же во время обхода заполнять структуру ответ - один номер для пользователя и список для емейлов. Или можно после цикла с DFS завести массив списков для ответа, пройтись по массиву и распихать номера вершин по спискам. Используйте булевый массив, чтобы понять какая вершина пользователь, а какая - мейл. Из пользователей возьмите только одного предстваителя, а все емейлы запихайте в список в ответ. Потом выводите, преобразуя номера в строки с помощью имеющегося массива.

Answer 2 · 2020-08-11 19:48:34

По-моему построить обратный индекс "email - список пользователей" как раз будет занимать линейное время (если вставка в хешмап линейна), по дороге можно отмечать те мейлы, в которых в списке более одного элемента оказалось.

Как найти повторяющиеся элементы в разных коллекциях за линейное время?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт