Как эффективно разбить множество строковых значений на непересекающиеся группы?

Question

TomaZe @TomaZe

Как эффективно разбить множество строковых значений на непересекающиеся группы?

Строки имеют следующий вид:
A1;B1;C1
A2;B2;C2
Как найти множество уникальных строчек и разбить его на не пересекающиеся группы по следующему критерию: если две строчки имеют совпадения непустых значений в одной или более колонках, они принадлежат одной группе
Например, строки
1,2,3
4,5,6
1,5,7
Принадлежат одной группе.

Изначально думал сделать через совокупность хэшсетов (три хэшсета для каждой колонки) для быстрого просмотра, входит ли строка в список уникальных значений, с последующим добавлением либо в список уже сгруппированных строк, либо в список уникальных строк. Но алгоритм в таком случае имеет узкое место по производительности: при необходимости слияния групп необходимо проходить каждую группу в списке. Алгоритм на большом количестве данных (>1 млн записей), при большом количестве слияний работает медленно. Если слияний мало (порядка тысяч), работает быстро. Поймал затык в этом месте и не знаю, как оптимизировать это узкое место или же необходимо использовать другие структуры данных и алгоритмы.
Может кто подскажет, в каком направлении копать.

Вопрос задан более трёх лет назад
2184 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

18 комментариев

TomaZe @TomaZe Автор вопроса

Хранить множество уникальных значений для каждой колонки в каждой группе вы имеете ввиду?
По хэшу поиск O(1), быстрее, чем бинарный поиск.

Написано более трёх лет назад
Константин Степанов @koronabora

TomaZe: Ну если я правильно понял, достаточно совпадений по любой из колонок. Выход - хранить вектор уникальных значений для каждой колонки и распределить на 3 потока поиск совпадений по каждой колонке.

Написано более трёх лет назад
MaxLich @MaxLich

Какая-то странная зацикленность на уникальных строках. Это-то легко сделать, достаточно их все скидать в какой-нибудь set. Вся соль задания в группировки. И вот это делается не просто (я сейчас бьюсь над этим заданием, и пока не решил его из-за сложностей с группировкой).

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, задача решается через разбиение по группам и выполнения поиска в глубину.
Решение задачи описано тут:
Разбиение

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Так зачем кидать колонки в сеты!? Элементы строк же слипнуться, и не узнаешь, к какой строке каждый из них относится. Разве что для каждой колонки сделать мапу, у которой ключом будет элемент, а значением - список строк, где он хранится. Но тоже пока не знаю, насколько это хорошее решение. Всё равно потом надо как-то списки строк склеивать.

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, Так и есть, нужно сформировать 3 мапы для каждой колонки, где ключом будет являться n-ый элемент колонки, а значением - коллекция строк, в которых данный ключ совпал. Далее, необходимо выполнить поиск в глубину.
Колонки в сеты кидать не вижу смысла, когда я делал это задание, я написал свой класс, который представлял строку и имел три строковых поля. По сету, который включал в себя экземпляры данного класса , я строил те самые три мапы.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Здравствуйте. Из таких исходных данных:
a;b;c
a;d;e
x;y;z
o;b;s
s;y;n
b;z;c
a;o;w
u;h;j
;p;
q;;g
;;o
t;;
;;

получил такой набор групп:
[0, 1, 6]
[0, 3]
[0, 5]
[2, 4]
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]

Что-то не могу понять, как дальше получить конечные группы. Подскажите, пожалуйста.

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, Вы не сделали то, о чем было указано мною выше, а именно, необходимо сформировать 3 мапы по колонкам.
В вашем примере, для первой мапы, по ключу 'a' должна лежать коллекция строк ->
a;b;c
a;d;e
a;o;w
по ключу
'x' -> x;y;z.
И так далее, по аналогии для каждого элемента каждой колонки. Смысла в том, чтобы делать так, как сделали Вы, я не вижу.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Так я уже это всё проделал, и уже объединил коллекции значений полученных мап. И вот дальше не знаю, что с ним делать. По идеи, если это всё объединить, то как раз получатся нужные группы.

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, да, нужно выполнить поиск в глубину (или ширину).
У Вас есть список ключей первой колонки, берете первый ключ, получаете список ассоциированных строк, сначала например из второй мапы по каждому второму значению полученных строк. Смотрите, есть ли строки, если есть, добавляете их в группу. Проходите, пока есть возможность проверять полученные значения по ключам n-ой колонки в мапах других колонок (для 1 мапы это 1-ые слова, для 2 мапы это 2-ые слова, для 3 мапы это 3-и слова строки). Необходимо также завести сет из посещенных строк, чтобы одни и те же строки не посещать.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Так колонки между собой не связаны. Если в качестве ключей держать элементы строк/столбцов, то бессмысленно искать их в других мапах. Тут скорее надо искать значения, то сами объединённые строки (списки номеров строк), но тогда это получится слишком долго.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Вообще, нашёл одно решение, правда, оно несколько тупое. Сейчас выложу.

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, почему бессмысленно? Это и есть задание, если один элемент одной колонки хранится в разных строках, то они составляют одну группу.
Вы берете первый ключ первой колонки, получаете список строк. Получаете строку, вынимаете ключи для второй колонки. И проверяете уже по второй мапе по полученным ключам, и проделать так же для третьей мапы.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Что-то не совсем понял, что Вы предлагаете. Есть три мапы с парами "элемент_строки - список_номеров_строк". Они все независимы, у них могут совпадать только значения (и то, раз это списки, то они могут иметь только общие элементы).
Вы берете первый ключ первой колонки, получаете список строк.

Как я его узнаю? Перебором?
Получаете строку, вынимаете ключи для второй колонки.

Получаю строку? Перебором?
Вынимаю ключи - как? Тоже перебором что ли?
Ну и соответственно, дальше тоже ничего не понятно.

Написано более трёх лет назад
MaxLich @MaxLich

почему бессмысленно?
Так ведь они все независимые, я же написал. Или Вы предлагаете использовать другие структуры данных?

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

По ключу в мапе для каждой колонки хранится не номер строки, а список строк.
Берете первый ключ первой колонки. Получаете список строк (по первой мапе)
В вашем примере по ключу 'a' первой мапы (которая хранит ключи для первого стоблца) достаете список строк:
a;b;c
a;d;e
a;o;w
Ключи 'b' , 'd' и 'o' предназначены для поиска во второй мапе (которую вы должны были прежде сформировать). Также, на этом этапе можно получить ключи для 3 мапы. Это 'c' , 'e' и 'w'. Проделываете это до тех пор, пока находятся ключи и пока текущая строка не является посещенной.
Перебором посещаете каждый полученный ключ для соотвествующей мапы. Формируете группы.
Одинаковые строки записываете, их больше одного раза не посещаете.

Написано более трёх лет назад
MaxLich @MaxLich

TomaZe, Ну попонятнее стало. Но если есть исходный массив строк, то любую строку можно получить по её номеру. Поэтому можно хранить и номера.

Написано более трёх лет назад
TomaZe @TomaZe Автор вопроса

MaxLich, это уже элементы реализации, как Вам проще так и делайте. Но лично мне показалось, что хранить номера строк избыточно, чтобы потом по этим номерам получать сами строки. Надеюсь Вы уловили один из возможных алгоритмов реализации этой задачи.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 327 просмотров
0

ответов
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 196 просмотров
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 245 просмотров
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 195 просмотров
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 182 просмотра
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 165 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 393 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 222 просмотра
1

ответ
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 350 просмотров
1

ответ
Java

+1 ещё

Простой
Почему не запускается собранный в .jar файл Java FX проект?
- 1 подписчик
- 26 февр.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2018-04-22 16:04:47

Нашёл одно решение. Алгоритм:

храним результат в виде списка списков: [номер_группы -> [строки_группы]]
используем вспомогательный список хэш-таблиц: [позиция_слова -> { слово -> номер_группы }] и вспомогательную хэш-таблицу для хранения какая группа в какую была влита
каждое слово строки ищем в соответствующей (позиции слова в строке) хэш-таблице
а) если слово есть, запоминаем номер группы (значение из хэш-таблицы), в которой оно найдено
б) если слова нет, то добавляем его в список новых слов
если строка (а точнее её слова) найдена в группах, то берём первую из "живых" (объяснение этого позже) групп, иначе создаём новую группу
добавляем новые слова в соответствующие хэш-таблицы с номером найденной/созданной группы
объединяем найденные группы в одну, выбранную ранее. Так как группы хранятся в виде списка строк, то просто объединяем списки строк в один у выбранной группы, а более ненужные группы отмечаем как "мёртвые" (присваиваем null, дабы не перемещать элементы внутри списка)
добавляем строку в список строк группы

Код метода поиска групп:

code

private static List<List<String>> findLineGroups(List<String> lines) {
        class NewLineElement {
            private String lineElement;
            private int columnNum;

            private NewLineElement(String lineElement, int columnNum) {
                this.lineElement = lineElement;
                this.columnNum = columnNum;
            }
        }

        if (lines == null)
            return Collections.emptyList();

        List<List<String>> linesGroups = new ArrayList<>(); //список групп, каждый элемент вида "номер группы - список строк группы"
        if (lines.size() < 2) {
            linesGroups.add(lines);
            return linesGroups;
        }

        List<Map<String, Integer>> columns = new ArrayList<>(); // список стобцов, каждый столбец - мапа с парами "элемент строки/столбца-номер группы"
        Map<Integer, Integer> unitedGroups = new HashMap<>(); //мэп с парами "номер некоторой группы - номер группы, с которой надо объединить данную"
        for (String line : lines) {
            String[] lineElements = line.split(";");
            TreeSet<Integer> groupsWithSameElems = new TreeSet<>(); //список групп, имеющих совпадающие элементы
            List<NewLineElement> newElements = new ArrayList<>(); //список элементов, которых нет в мапах столбцов

            for (int elmIndex = 0; elmIndex < lineElements.length; elmIndex++) {
                String currLnElem = lineElements[elmIndex];
                if (columns.size() == elmIndex)
                    columns.add(new HashMap<>());
                if ("".equals(currLnElem.replaceAll("\"","").trim()))
                    continue;

                Map<String, Integer> currCol = columns.get(elmIndex);
                Integer elemGrNum = currCol.get(currLnElem);
                if (elemGrNum != null) {
                    while (unitedGroups.containsKey(elemGrNum)) // если группа с таким номером объединена с другой,
                        elemGrNum = unitedGroups.get(elemGrNum); //то сохраняем номер группы, с которой была объединена данная
                    groupsWithSameElems.add(elemGrNum);
                } else {
                    newElements.add(new NewLineElement(currLnElem, elmIndex));
                }
            }
            int groupNumber;
            if (groupsWithSameElems.isEmpty()) {
                linesGroups.add(new ArrayList<>());
                groupNumber = linesGroups.size() - 1;
            } else {
                groupNumber = groupsWithSameElems.first();
            }
            for (NewLineElement newLineElement : newElements) {
                columns.get(newLineElement.columnNum).put(newLineElement.lineElement, groupNumber);
            }
            for (int matchedGrNum : groupsWithSameElems) { //перебираем все группы с таким же элементом
                if (matchedGrNum != groupNumber) {
                    unitedGroups.put(matchedGrNum, groupNumber); //сохраняем инф-цию об объединённых группах
                    linesGroups.get(groupNumber).addAll(linesGroups.get(matchedGrNum)); //объединяем группы
                    linesGroups.set(matchedGrNum, null); //помечаем группу с текущим номер, как несуществующую
                }
            }
            linesGroups.get(groupNumber).add(line);
        }
        linesGroups.removeAll(Collections.singleton(null)); //удаляем несуществующие группы
        return linesGroups;
    }

Answer 2 · 2017-03-30 01:19:38

Я вижу только один вариант - хранить множество уникальных значений для каждой колонки. Если строка имеет в одной из колонок совпадение - тогда добавить в это множество и обновить уникальные значения колонок.

ИМХО, быстрее уже не сделать. Только если не оптимизировать поиск по уникальным значениям колонки, переделав его в бинарный, например.

Answer 3 · 2024-01-12 10:54:25

попробуйте решить сами, а потом возвращайтесь сюда.
- храним результат в виде списка множеств для уникальности: [номер_группы -> [строки_группы]]
- используем вспомогательный список хэш-таблиц: [позиция_слова -> { слово -> номер_группы }]
1. считать строку, разбить на колонки
2. обойти колонки. для каждой колонки которая указывает на существующий к текущему моменту номер группы, если это не впервые для этой строки, пересасываем все строки найденной теперь группы в первую, переназначаем их колонки на нее и освобождаем найденную теперь группу.
3. если не нашли ни одной, добавляем строку как новую группу. иначе добавляем ее к той группе которая найдена первая.
4. когда считали все строки остается вывести список множеств строк - все группы

code

package org.example;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.*;

public class Main {
    public static void main(String[] args) {
        BufferedReader reader;
        try {
            reader = new BufferedReader(new FileReader(args[0]));
            List<Set<String>> groups = new ArrayList<>();
            List<Map<String, Integer>> parts = new ArrayList<>();

            String line = reader.readLine();
            while (line != null) {
                String[] columns = getColumnsOf(line);
                Integer groupNumber = null;
                for (int i = 0; i < Math.min(parts.size(), columns.length); i++) {
                    Integer groupNumber2 = parts.get(i).get(columns[i]);
                    if (groupNumber2 != null) {
                        if (groupNumber == null) {
                            groupNumber = groupNumber2;
                        } else if (!Objects.equals(groupNumber, groupNumber2)) {
                            for (String line2 : groups.get(groupNumber2)) {
                                groups.get(groupNumber).add(line2);
                                apply(getColumnsOf(line2), groupNumber, parts);
                            }
                            groups.set(groupNumber2, new HashSet<>());
                        }
                    }
                }
                if (groupNumber == null) {
                    if (Arrays.stream(columns).anyMatch(s -> !s.isEmpty())) {
                        groups.add(new HashSet<>(List.of(line)));
                        apply(columns, groups.size() - 1, parts);
                    }
                } else {
                    groups.get(groupNumber).add(line);
                    apply(columns, groupNumber, parts);
                }
                line = reader.readLine();
            }
            reader.close();

            System.out.println("Групп размера больше 1: " + groups.stream().filter(s -> s.size() > 1).count());
            groups.sort(Comparator.comparingInt(s -> -s.size()));
            int i = 0;
            for (Set<String> group : groups) {
                i++;
                System.out.println("\nГруппа " + i);
                for (String val : group) {
                    System.out.println(val);
                }
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    private static String[] getColumnsOf(String line) {
        for (int i = 1; i < line.length() - 1; i++) {
            if (line.charAt(i) == '"' && line.charAt(i - 1) != ';' && line.charAt(i + 1) != ';') {
                return new String[0];
            }
        }
        return line.replaceAll("\"", "").split(";");
    }

    private static void apply(String[] newValues, int groupNumber, List<Map<String, Integer>> parts) {
        for (int i = 0; i < newValues.length; i++) {
            if (newValues[i].isEmpty()) {
                continue;
            }
            if (i < parts.size()) {
                parts.get(i).put(newValues[i], groupNumber);
            } else {
                HashMap<String, Integer> map = new HashMap<>();
                map.put(newValues[i], groupNumber);
                parts.add(map);
            }
        }
    }
}

программа работает достаточно быстро и требует меньше гигабайта памяти.
следует дописать вывод не в sout а в файл, назвать переменные более соответствующе.

Как эффективно разбить множество строковых значений на непересекающиеся группы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт