Как эффективно сгруппировать строки?

Question

MaxLich @MaxLich

java developer

Java

Как эффективно сгруппировать строки?

Здравствуйте. Нужно решить такую задачу, и не получается.

На вход поступает набор строк вида:
A;B;C
X;Y;Z
J;A;Z
U;V;W
E;E;E
D;F;G

Если две строки имеют общие элементы в одной позиции (один и больше), то считается, что они принадлежат одной группе. Если две группы пересекаются, то считается, что это одна группа. То есть ниже представленные строки составят одну группу:
F;I;J
F;X;A
D;X;P
У первой и второй строки общий элемент - "F", у второй и третьей - "X". И они все принадлежат одной группе.
Нужно найти все такие группы, подсчитать их количество, и вывести эти группы в порядке убывания их размер (размер группы - это количество строк в ней). Почти два дня уже бьюсь, и не могу решить эту задачу. Одно решение придумал, но оно не работает, когда строк около 1 000 000: вычисление идёт слишком долго. Ну соответственно, при большом количестве данных встаёт вопрос об экономном расходовании памяти.

Сначала у меня был такой алгоритм:
1. Создаю список списков строк: List> , он будет хранить группы
2. Кидаю в него первую строку (соответственно, создаю первую группу).
3. Перебираю строки из изначального списка:
3.1. Беру очередную строку, удаляю её из списка
3.2 Получаю итератор для перебора групп
3.3. Перебираю группы
3.3.1 Беру очередную группу
3.3.2 Перебираю строки в ней
3.3.2.1 Для каждой строки из группы смотрю, есть ли совпадающие элементы с элементами строки из первоначального списка:
а) если есть, то смотрю была ли уже добавлена строка в какую группу:
1) если была добавлена, то беру текущую группу и её полностью добавляю в ту, куда была добавлена строка, после этого текущую группу удаляю
2) если не была добавлена, то добавляю в текущую группу строку и запоминаю эту группу
после этого выхожу из цикла перебора строк группы
б) если нет, то перехожу к следующей итерации
3.4 После выхода из цикла групп, проверяю есть ли данные о группе, в которой обнаружена строка, имеяющая общие элементы с текущей строкой, если информации о такой группе нет, то тогда создаю новую группу и добавляю туда текущую строку.

Вопрос задан более трёх лет назад
536 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

33 комментария

MaxLich @MaxLich Автор вопроса

группа у вас состоит из одного элемента. В вашем примере F и X - две группы, в которые нужно положить номера строк.

Почему? Разъясните.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Попробовал тупо скопировать Ваш код, и запустить его в ИДЕ, но всё валится с недостатком памяти. И валится на строчке разбития строки на термы

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, Возможно я не до конца понял вашу задачу, перечитал еще раз, и похоже, по группам нужно пройти еще раз (и еще в рекурсии) и найти интерсекции массивов в каждой из групп, создав дополнительные группы типа (F,X,n...).
В любом случае на первом этапе мы получили группы строк из одного повторяющегося элемента. Теперь нужно бегать этому результату и редьюсить, создавая новые группы, пока редьюсится. (доберусь до работы, попробую сделать, уж очень задачка понравилась.)

Написано более трёх лет назад
Алексей Черемисин @leahch
MaxLich, Вот здесь?
List<String> terms = Arrays.asList(myData[line].split(";"));

А пример строки хотя бы? Какова ее длина?
Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Группа - это список строк, имеющих общие элементы (элемент - это подстрока между разделителем). Поэтому пока не понятно, что делать с выводом Вашего кода.
Результат мне надо вывести в виде:
общее количество строк размером больше 1: (некоторое число)
Группа 1
Строка 1
Строка 2
Строка 3
Группа 2
Строка 4
Строка 5
Строка 6
Группа 3
...

Строки в первоначальном списке не повторяются, но элементы в строке могут повторяться (то есть может быть строка вида "X;X;X")

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Длина строки, как указано в примере, то есть 3 элемента, но она может быть произвольная. Просто в моём случае эти строки состоят из трёх элементов.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

MaxLich, То есть вывод, например, будет таков:
10
Группа 1
A1;B1;C1
B1;A2;A3
X1;C3;C1
Группа 2
X2;X3;X4
Y2;X2;X0
Y2;X10;X11
Группа 3
U1;U2;U3

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, мой вывод достаточно прост
Группа - [номера строк]
Т.е. запись
A - [1, 3, 5]
говорит, что группе A принадлежат строки 1,3,5. Сами строки я не вывожу. Имя группы равно имени общего терма.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, Собственно у меня длина строки и количество термов ничем не лимитировано, хоть один, хоть 1000.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, Еще раз по задаче. Вам нужно сгруппировать строки, где число совпадающих элементов больше одного? Мой пример группирует строки, где совпадение есть хотя бы по одному элементу. Чтобы найти остальные совпадения, нужно уже редусить и группировать мой результат, и не нужно просматривать весь список заново.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Не понял Вас. Нужно сгруппировать строки, имеющие общие элементы. Среди этих групп будут группы с одной строкой. Их число надо вывести отдельно. Но это неважно, подсчитать всегда можно. Тут главное, чтобы получить наборы этих строк.
По вашему выводу нельзя восстановить строки и вывести их в таком виде, как я указал.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Чтобы строки попали в группу, у них должен совпадать хотя бы один элемент. Соответственно, если у строки нет ни одного общего элемента с другими строками, она попадает в отдельную группу. Так со всеми такими строками. Будет несколько групп с количеством строк больше 1, и несколько группы, в которых будет по одной строке.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, А вы свой код запускали, например, на матрице 1000х1000000? Или просто его накидали, без проверки? Просто я хочу выяснить, где ошибка.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, Конечно же не запускал! Во первых, эту матрицу еще и сформировать нужно. Во вторых, задача все-же Ваша! В третьих, под боооольшие массивы можно и пооптимизировать, что я конечно же не делал. В четвертых, а не пытаетесь Вы всю исходную матрицу засунуть в память? И в пятых, если уж и валится, то берем в руки профайлер и ловим где и что. В шестых, такие большие матрицы нужно обрабатывать в несколько проходов.
Собственно, сама задача давно описана и называется map-reduse, так что ее можно еще и распараллелить.

Написано более трёх лет назад
Алексей Черемисин @leahch
@MaxLich, По вашему выводу нельзя восстановить строки и вывести их в таком виде, как я указал.

Это как же нельзя восстановить?! Это же просто номера строк исходного массива myData[i]!!!!
// выводим результат for(Entry<String, TreeSet<Integer>> group: groups.entrySet()) { if(group.getValue().size() >1) System.out.printf("Группа: %s\n", group.getKey().toString()); group.getValue().forEach((i)->System.out.println(myData[i])); }
Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Так у элементов строк есть позиции. Хотя не столь важно, можно использовать другой тип данных (чтобы ещё хранить позицию элемента).

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Да, я думал о распараллеливании, но если взять допустим первый 100 000 строк, то не факт, что в пределах этого куска данных будут полные группы. Скорее всего, в других частях данных будут элементы этих групп. Хотя, предполагаю, что можно написать алгоритм объединения обработанных кусков данных. Надо подумать.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, Вам еще и позицию подсвечивать? Ну это же совсем просто. Сам терм у вас есть, строка разбита, достаточно одного прямого сравнения.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Ладно, короче, почитаю про мэп-редьюс, поразбираюсь, посмотрю, что получится (но это будет позже). Пока понял, что надо попробовать создать мапу с ключами в виде элементов строк и значениями в виде номера группы, номера строки и номера позиции.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, зачем вам номер группы и номер позиции? Номер строки нужен, это и так понятно. Номер группы и номер позиции всегда можно получить уже при выдаче конечного результата.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Так а как я узнаю, к какой группе относится строка, и на какой позиции находится элемент? Ну это если в мапе в качестве ключей хранить элементы строк.

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, у вас группа содержит массив (сет) номеров строк! По номеру строки вытащить саму строку? Ключ (имя) группы у вас сожержит сам элемент, найти его в исходной строке не составляет проблемы. Только все эти операции к самой группировке не имеют никакого отношения! Они нужны только на самом последнем и очень быстром этапе - выводе на печать результатов. Ну и зачем все это тащить в память?!

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Ну допустим группы я смогу определить по номерам строк, привязанным к элементам. Если не хранить список строк, то тогда для каждого элемента надо сохранять его позицию. Если хранить этот список, то тогда у меня есть ссылка на строку, и я для вывода результата смогу получить строку сразу из исходного списка.

Написано более трёх лет назад
Алексей Черемисин @leahch
MaxLich, а позиция элемента вам зачем в группировке?
Смотрите. у вас есть строки
"F;I;J", "F;X;A", "X;D;P",

Вы все строки пронумеровали, они у вас в массиве, в файле, базе данных и т.д.
Из каждой строки достали термы и положили эти термы по номерам строк, где они присутствуют. F : [1,2], X: [2,3].
Теперь у вас получились группы с номерами строк, разбитые по термам. Мы их можем объединять дальше, разбивать, сливать и т.д. При этом не забывать тащить за собой номера строк.
В этом случае нам вообще не важна позиция терма. Нам только важно, что он встречается в строке 5, 10, 13 и т.д.
Объединив например F + X через intersection, получим еще 1 группу, где есть и F и X равно (F,X):[2] и встречается только в строке 2
Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Так я же написал: если есть исходный массив строк, то позиции не нужны, если нет - нужны. Всё просто и понятно. Дальше мне нужно разобраться, что с полученными данными делать (списками терм с номерами строк, где они встречаются). Если возникнуть вопросы или что-то не получится, я напишу.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, А что значит
Объединив например F + X
???
И почему
получим еще 1 группу
???
Просто, то ли Вы что-то не понимаете в условии задачи, то ли я. Группа - это множество пересекающихся пар (но повторов может быть больше 2) элементов строк (вы их называете термами, как я понял).

Написано более трёх лет назад
Алексей Черемисин @leahch

MaxLich, у нас есть две группы
F : [1,2]
X: [2,3]
Группа F и номера строк в нее входящие - 1 и 2
Группа X и номера строк в нее входящие - 2 и 3
Если мы объединяем группы через интерсекцию (оставляем только одинаковые элементы), то получаем еще одну группу, в которую входит и F и X, а совпадают эти группы только одним номером - 2!
Сделав ключ из TreeSet("F","X"), а элементом получившееся объединение [2], получим два терма в ключе и номера строк, где эти термы встречаются вместе.

Написано более трёх лет назад
Алексей Черемисин @leahch

Просто, то ли Вы что-то не понимаете в условии задачи, то ли я. Группа - это множество пересекающихся пар (но повторов может быть больше 2) элементов строк (вы их называете термами, как я понял).

Да, я это называю термами.
У вас задача в два прохода, первый проход - создать группы из одиночных элементов. И как раз это в моем примере!
Вторым вторым проходом по полученному результату объединяете термы между собой. Этого в моем примере нет! Здесь напишете уже сами.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, А, понятно. Это другие группы.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Это я уже понял, что дальше мне придётся самому поковыряться. Про первое я тоже бы догадался без кода, может быть даже сам. Но всё равно спасибо за ответы. Надеюсь, я теперь иду в нужном направлении.

Написано более трёх лет назад
MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Извините за беспокойство, но можете подсказать, как сворачивать результаты? Просто перебором получается долго. Попробовал изначально по-другому делать, и сразу объединять группы термов, но тоже получается перебор, и это долго работает.

Написано более трёх лет назад

Алексей Черемисин @leahch

MaxLich, Приветствую, поторопились Вы отметить решение :-( Что-то не получилось у меня свернуть, как вам нужно. Свертка выглядит примерно так, но получается не совсем тот результат.

// Агрегируем
		HashMap<Set<String>, TreeSet<Integer>> results = new HashMap<Set<String>, TreeSet<Integer>>();
		
		HashMap<String, TreeSet<Integer>> groups_copy = new HashMap<String, TreeSet<Integer>>(groups);
		Iterator<Entry<String, TreeSet<Integer>>> iter = groups_copy.entrySet().iterator();
		while(iter.hasNext()) {
			Entry<String, TreeSet<Integer>> ge = iter.next();
			iter.remove();
			groups_copy.forEach((k,v) -> {
				TreeSet<String> key = new TreeSet<String>();
				key.add(ge.getKey());key.add(k);
				
				TreeSet<Integer> val = new TreeSet<Integer>();
				if(ge.getValue().size() > v.size() ) {
					val.addAll(ge.getValue());
					val.retainAll(v);
				} else {
					val.addAll(v);
					val.retainAll(ge.getValue());
				}
				if(val.size() >0)
					results.put(key, val);
			});
		}

Написано более трёх лет назад

MaxLich @MaxLich Автор вопроса

Алексей Черемисин, Я поправил описание своего вопроса. Забыл, что нужно ещё, чтобы совпадающие элементы были на одной позиции.

ЗЫ Поэтому я пока ещё сам подумаю, и переделаю всё (по крайней мере первую часть), а потом посмотрю ваше решение (лучше бы просто описали алгоритм, а то хочется всё делать самому).

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 140 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 110 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 99 просмотров
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 150 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 170 просмотров
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 169 просмотров
1

ответ
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 292 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 119 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 117 просмотров
0

ответов
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Answer 1 · 2018-04-22 16:07:08

Нашёл одно решение. Алгоритм:

храним результат в виде списка списков: [номер_группы -> [строки_группы]]
используем вспомогательный список хэш-таблиц: [позиция_слова -> { слово -> номер_группы }] и вспомогательную хэш-таблицу для хранения какая группа в какую была влита
каждое слово строки ищем в соответствующей (позиции слова в строке) хэш-таблице
а) если слово есть, запоминаем номер группы (значение из хэш-таблицы), в которой оно найдено
б) если слова нет, то добавляем его в список новых слов
если строка (а точнее её слова) найдена в группах, то берём первую из "живых" (объяснение этого позже) групп, иначе создаём новую группу
добавляем новые слова в соответствующие хэш-таблицы с номером найденной/созданной группы
объединяем найденные группы в одну, выбранную ранее. Так как группы хранятся в виде списка строк, то просто объединяем списки строк в один у выбранной группы, а более ненужные группы отмечаем как "мёртвые" (присваиваем null, дабы не перемещать элементы внутри списка)
добавляем строку в список строк группы

Код метода поиска групп:

code

private static List<List<String>> findLineGroups(List<String> lines) {
        class NewLineElement {
            private String lineElement;
            private int columnNum;

            private NewLineElement(String lineElement, int columnNum) {
                this.lineElement = lineElement;
                this.columnNum = columnNum;
            }
        }

        if (lines == null)
            return Collections.emptyList();

        List<List<String>> linesGroups = new ArrayList<>(); //список групп, каждый элемент вида "номер группы - список строк группы"
        if (lines.size() < 2) {
            linesGroups.add(lines);
            return linesGroups;
        }

        List<Map<String, Integer>> columns = new ArrayList<>(); // список стобцов, каждый столбец - мапа с парами "элемент строки/столбца-номер группы"
        Map<Integer, Integer> unitedGroups = new HashMap<>(); //мэп с парами "номер некоторой группы - номер группы, с которой надо объединить данную"
        for (String line : lines) {
            String[] lineElements = line.split(";");
            TreeSet<Integer> groupsWithSameElems = new TreeSet<>(); //список групп, имеющих совпадающие элементы
            List<NewLineElement> newElements = new ArrayList<>(); //список элементов, которых нет в мапах столбцов

            for (int elmIndex = 0; elmIndex < lineElements.length; elmIndex++) {
                String currLnElem = lineElements[elmIndex];
                if (columns.size() == elmIndex)
                    columns.add(new HashMap<>());
                if ("".equals(currLnElem.replaceAll("\"","").trim()))
                    continue;

                Map<String, Integer> currCol = columns.get(elmIndex);
                Integer elemGrNum = currCol.get(currLnElem);
                if (elemGrNum != null) {
                    while (unitedGroups.containsKey(elemGrNum)) // если группа с таким номером объединена с другой,
                        elemGrNum = unitedGroups.get(elemGrNum); //то сохраняем номер группы, с которой была объединена данная
                    groupsWithSameElems.add(elemGrNum);
                } else {
                    newElements.add(new NewLineElement(currLnElem, elmIndex));
                }
            }
            int groupNumber;
            if (groupsWithSameElems.isEmpty()) {
                linesGroups.add(new ArrayList<>());
                groupNumber = linesGroups.size() - 1;
            } else {
                groupNumber = groupsWithSameElems.first();
            }
            for (NewLineElement newLineElement : newElements) {
                columns.get(newLineElement.columnNum).put(newLineElement.lineElement, groupNumber);
            }
            for (int matchedGrNum : groupsWithSameElems) { //перебираем все группы с таким же элементом
                if (matchedGrNum != groupNumber) {
                    unitedGroups.put(matchedGrNum, groupNumber); //сохраняем инф-цию об объединённых группах
                    linesGroups.get(groupNumber).addAll(linesGroups.get(matchedGrNum)); //объединяем группы
                    linesGroups.set(matchedGrNum, null); //помечаем группу с текущим номер, как несуществующую
                }
            }
            linesGroups.get(groupNumber).add(line);
        }
        linesGroups.removeAll(Collections.singleton(null)); //удаляем несуществующие группы
        return linesGroups;
    }

Answer 2 · 2018-04-17 22:58:07

Как ни странно, итерировать группы совсем не обязательно!
1) группа у вас состоит из одного элемента. В вашем примере F и X - две группы, в которые нужно положить номера строк.
2) за один проход бежим по строкам и добавляем их в соответствующие группы термов, которые держим в hashtable, где ключом у нас сам терм, а значением - массив из номеров строк.
3) после того, как заполнили хеш, пробегаемся по нему один раз и смотрим, у кого длина массива больше единицы, это и будут исходные группы.

Если нам нужно дополнительно сформировать группы из двух-трех термов, то делает все тоже самое, но ключом ставим treeset из этих элементов.

import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Map.Entry;
import java.util.TreeSet;

public class Groups {

	public static void main(String[] args) {
		String[] myData = {
				"F;I;J", 
				"F;X;A",
				"X;D;P",

				"A;B;C",
				"X;Y;Z",
				"J;A;Z",
				"U;V;W",
				"E;E;E",
				"D;F;G",
		};
		
		HashMap<String, TreeSet<Integer>> groups = new HashMap<String, TreeSet<Integer>>();
		
		for(int line=0; line< myData.length; line++ ) { // бежим по строкам
			
			List<String> terms = Arrays.asList(myData[line].split(";")); // разбиваем на термы
			
			for(String term: terms) { // пробегаем по термам
				TreeSet<Integer> group = groups.get(term); // выдергиваем группу
				
				if(group == null) { // если группы нет
					group = new TreeSet<Integer>();
					groups.put(term, group);
				}
				group.add(line); // добваляем строку
			}
		}
		
		// выводим результат
		for(Entry<String, TreeSet<Integer>> group: groups.entrySet()) {
			if(group.getValue().size() >1)
				System.out.printf("%s - %s\n", group.getKey().toString(), group.getValue().toString());
		}
	}
}

И результат

A - [1, 3, 5]
D - [2, 8]
F - [0, 1, 8]
J - [0, 5]
X - [1, 2, 4]
Z - [4, 5]

Answer 3 · 2018-04-17 22:43:31

Dimonchik @dimonchik2013

non progredi est regredi

фильтр Блума

Ответ написан более трёх лет назад

1 комментарий

Как эффективно сгруппировать строки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт