Как найти самый длинный префикс среди строк и сгруппировать по нему?

Question

prochanev @prochanev

Как найти самый длинный префикс среди строк и сгруппировать по нему?

Всем привет! Уже заспамил весь гугл, но, то что он выдал, не смог применить.
Смог только найти, что подобная задача называется Longest common prefix(LCP)

Есть таблица example:

+----+-----------+------------------------+
| id | parent_id | path                   |
+----+-----------+------------------------+
| 1  | 7         | val10/val11/val12/val3 |
| 2  | 7         | val1/val2/val3/val5    |
| 3  | 7         | val1/val2/val3/val6    |
| 4  | 7         | val1/val2/val3/val7    |
| 5  | 7         | val1/val2/val3/val8    |
| 6  | 7         | val1/val2/val3/val9    |
+----+-----------+------------------------+

Как сгруппировать строки по самому длинному префиксу в столбце path относительно parent_id? Под префиксом имеется ввиду повторяющаяся часть строки начиная с начала.

Для таблицы выше вывод должен быть:

+-----------+------------------------+-------+
| parent_id | path                   | count |
+-----------+------------------------+-------+
| 7         | val1/val2/val3         | 5     |
| 7         | val10/val11/val12/val3 | 1     |
+-----------+------------------------+-------+

для генерации примера:

create table example (id int, parent_id int, path varchar(50));

insert into example
select 1, 7, 'val10/val11/val12/val3'
union select 2, 7, 'val1/val2/val3/val5'
union select 3, 7, 'val1/val2/val3/val6'
union select 4, 7, 'val1/val2/val3/val7'
union select 5, 7, 'val1/val2/val3/val8'
union select 6, 7, 'val1/val2/val3/val9'

Возможно, кто-то встречался с такой задачей, отзовитесь! )

Вопрос задан более трёх лет назад
734 просмотра

1 комментарий

Подписаться 1 Сложный 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

9 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

prochanev @prochanev Автор вопроса

Не совсем, возможно я плохо объяснил. У записей с id 2 - 6 есть общий кусочек val1/val2/val3, вот по нем и нужно сгруппировать, а вот у записи с id 1 строка не содержит префикс val1/val2/val3 по этому в ожидаемом выводе эта строка стоит отдельно.

При вашем варианте на против каждой строки будет стоять 1, т.к. они все разные.

Спасибо за отклик!

Написано более трёх лет назад
d-stream @d-stream

prochanev, а можно поширше развернуть прикладной смысл этого?
Я так подозреваю что val1/val2/val3/val8 - это уже "схлопнутое" и в исходном [где-то] это скорее всего нечто "в ширину" типа битовых полей
is_val1
is_val2
...
isval100

Если - да - то я бы разворачивал в такое

Написано более трёх лет назад
prochanev @prochanev Автор вопроса

Вообще это просто структура подразделений, и в точке с parent_Id=7 нужно найти наиболее подходящее подразделение. Мне тут по смыслу подошёл наибольший общий префикс. В исходном виде это дерево parent-child, только проблема в том, что в точках подобных parent_id = 7 нету подразделения и мне нужно его "определить" исходя из дочерних.

Написано более трёх лет назад
d-stream @d-stream
ТО есть для val1/val2/val3/val8 это
val1 val2 val3 val8

???

Типа для каждого id - есть кусочек из некоей глобальной иерархии без явной начальной токи???
Написано более трёх лет назад
prochanev @prochanev Автор вопроса
Смотрите
1. Есть таблица с иерархией подразделений, тут дерево

таблица departments:
+----+-----------+------+ | id | parent_id | name | +----+-----------+------+

2. Есть таблица с сущностями, у которых есть признак department_id
+----+-----------+---------------+ | id | parent_id | department_id | +----+-----------+---------------+

В "таблице с сущностями" у тех id, которые входят в список parent_id в поле department_id и parent_id пусто в моем примере это сущность с id = 7

У остальных сущностей есть признак department_id (в моем примере это id с 1 - 6)

Дак вот, задача у сущности с id = 7 найти наиболее подходящее подразделение исходя из наименований дочерних.

Имена 'val1/val2/val3/val5' это просто свернутое дерево подразделений.

Надеюсь понятно расписал :)
Написано более трёх лет назад
d-stream @d-stream

Да, вроде мысль уловил. То есть у id=7 "потерялись" цепочки.
Правильно ли я понимаю что добытые цепочки гарантировано есть неразрывный фрагмент из какого-то бОльшего (общего дерева)?

Если да - то есть мысль:
- предположим что потряные цепочки - конечные - то есть хвосты совпадают
- строим из главного дерева иерархий все возможные цепочки
- ищем совпадения реверсивно
то есть в полной иерархии есть цепочка
a0/b1/c2/d3/e4/f5 - реверсивно - f5/e4/d3/c2/b1/a0
а "обрезок" d3/e4/f5 - реверсивно f5/e4/d3

тогда по этому обрезку получится найти исходную цепочку...

если предположение про совпадающие хвосты неверно - придется в цикле "укорачивать" полные цепочки и повторять поиск

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 89 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 353 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 171 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 333 просмотра
3

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 311 просмотров
2

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 349 просмотров
3

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 986 просмотров
5

ответов
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 802 просмотра
2

ответа
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 210 просмотров
1

ответ
Показать ещё Загружается…

Добился нужного результата используя функцию lca, по сути это и есть longest common prefix из расширения ltree для Postgresql

Спасибо за участие, тем, кто помогал.

Answer 1 · 2020-01-23 13:39:13

Константин Цветков @tsklab

Здесь отвечаю на вопросы.

ltree.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2020-01-22 15:26:02

d-stream @d-stream

Готовые решения - не подаю, но...

гм,,, select path, count(*) from example group by path ?
или я что-то в условиях не совсем понял?

Ответ написан более трёх лет назад

6 комментариев

Answer 3 · 2020-01-23 20:48:23

Как по мне - задача поставлена неверно. Или не хватает доп-условий. Например я считаю что общий префикс должен быть такой.

+-----------+------------------------+-------+
| parent_id | path                   | count |
+-----------+------------------------+-------+
| 7         | val1                   | 6     |
+-----------+------------------------+-------+

Как найти самый длинный префикс среди строк и сгруппировать по нему?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт