Организация хранения структуры категорий в реляционной БД?

Question

denisigo @denisigo

Организация хранения структуры категорий в реляционной БД?

Задача — организовать хранение некоего каталога, с достаточно разветвлённой структурой (дерево) — пускай это будет каталог продукции интернет-магазина. Для поиска элемента доступен только URI вида "/category/subcategory/another-category/and-one-more-category". Максимальная вложенность порядка 10.

Категории запрашиваются часто, меняются редко, общее количество категорий может быть порядка 100 тыс.

Так же требуется шустрая генерация «хлебных крошек». Причём ссылка на категорию («and-one-more-category») может отличаться от её заголовка («И ещё одна категория»), который используется для вывода на странице.

У меня пока одно предполагаемое решение — «в лоб» — по следам Materialized path:

таблица для категорий имеет следующую структуру

CREATE TABLE categories (

`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY,

`title` VARCHAR(50) NOT NULL,

`link` VARCHAR(50) NOT NULL,

`path` VARCHAR(1000) NOT NULL,

`title_path` VARCHAR(1000) NOT NULL

)

CREATE INDEX path_indx ON categories (`path`);

`title` — заголовок категории («И ещё одна категория»),

`link` — ссылка категории («and-one-more-category»),

`path` — путь к категории («category/subcategory/another-category/and-one-more-category»),

`title_path` — то же, что и `path`, только содержит заголовки соответствующих категорий — для быстрой генерации «хлебных крошек»

— Привлекает то, что для поиска категории не нужно никаких усилий — просто SELECT… WHERE path LIKE…

— Не пугает даже необходимость перестроения путей в случае перемещения/переименования узлов.

— Пугает избыточность подхода и вероятные размеры таблицы при большом количестве категорий. Насколько это скажется на скорости?

— Так же смущает то, что в качестве ключа для поиска используется такая длинная строка в `path` (хотя я очень сомневаюсь что она когда-либо выйдет за пределы 100 символов)

Может вынести `path` и `title_path` в отдельную таблицу? Так всё равно путь и хлебные крошки для категории требуется практически всегда, так что придётся джойнить…

Смотрю в сторону Full hierarchy, но опять же смущает возможная избыточность в таблице иерархии, тем более учитывая потенциальные количества категорий и уровни вложенности.

Как более оптимально решить задачу?

Вопрос задан более трёх лет назад
5990 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

9 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

Alex Shinkevich @aleXoid

Стоп, у меня видимо затуп. Храните просто вместо path md5(path) — собственно сразу вместо varchar(1000) будет varchar(40). А дальше для хлебных крошек serialize(array or object) наверное лучше в поле text()

Написано более трёх лет назад
denisigo @denisigo Автор вопроса

Да, я пока домой добирался тоже подумал о md5 для path или о чём-то ещё более коротком. Может есть способ получить более короткую уникальную строку из path? Спасибо!

Написано более трёх лет назад
denisigo @denisigo Автор вопроса

Думаю, может подойти CRC32

Написано более трёх лет назад
Алексей Журбицкий @blo

нужно ли предусматривать возможность изменения родительской категории, например при редактировании подкатегории (category/subcategory/… на category/subcategory-1/)? если нет, то возможно Ваш вариант подходит. Если надо предусмотреть эту возможность, да и вообще иметь более гибкую структуру — советую погуглить nested sets

Написано более трёх лет назад
Алексей Журбицкий @blo

блин, не туда нажал((

Написано более трёх лет назад

1 комментарий

5 комментариев

denisigo @denisigo Автор вопроса

Что если сделать так: добавляем поле UNSIGNED INT path_crc с индексом, и храним там CRC32 от `path`. Соответственно, при запросе категории, преобразуем URI в CRC32 и ищем по нему. Вероятность совпадения CRC для разных путей должна быть ничтожно мала если я ничего не путаю. Всё это для того, чтобы не держать большой индекс для поля `path` и быстрей искать категорию.
Далее, прикручиваем поле `mpath`VARCHAR (25) с индексом, в котором, следуя методу Materialized path, храним «цифровой» путь к категории (например 1.2.34.456) — это для более быстрой выборки подкатегорий уже известной категории (пользуемся WHERE LIKE). А поля `path` и `titlepath` оставляем просто для построения «хлебных крошек» и индексы с них убираем. Конечно, добавляется пара лишних полей, но они, как мне кажется, оправданны каждое в своём случае.

Написано более трёх лет назад
denisigo @denisigo Автор вопроса

Поясню, поле `path_crc` — именно для быстрого поиска конкретной категории, по полному пути, естественно ни о каких «WHERE LIKE» по этому полю речи не шло =)

Написано более трёх лет назад
WebByte @WebByte

Для быстрого поиска храните в пути еще и id конечной категории.
Откусили последнее значение — получили ID, быстро его нашли без всяких там плясок с бубнами.
Если для хранения пути будете использовать не разделители, а числа фиксированной длины, то получите дополнительные бенефиты, когда путь нужного уровеня категорий вычисляется банальным substr(path, 1, 5*var_level), а последний ID substr(path, -5). Более того, если хранить таким образом, то путь будет уникальным, значит, его можно сделать примари ключом, тогда доступ по like будет еще быстрее.

Не парьтесь насчет размера, диски сейчас дешевые, а список много места не займет.
Я так храню примерно 40 миллионов комментариев, ни с производительностью, ни с местом проблем нет.

Написано более трёх лет назад
denisigo @denisigo Автор вопроса

Немного вас не понял. А именно — почему вы так жестко определили «5 символов на узел в пути»? Уточню, узлы в пути могут быть произвольной длины — «бытовая-электроника/аудиотехника/для-меломанов/ламповые-усилители» и именно эта строка является является «ключом» для поиска. Никаких дополнительных сведений ни о ID категории ни о чём-то ещё нет. Вобщем, это выглядит так: example.com/shop/category/бытовая-электроника/аудиотехника/для-меломанов/ламповые-усилители

Написано более трёх лет назад
WebByte @WebByte

Для хранения 100000 категорий нужны числа от 00000 до 99999.
Это пятизначное число. Поэтому использовал пятерку.
Будет меньше категорий — используйте меньшую разрядность

Вот пример:
name____id____path

shop_____0____0000
category__1____00000001
бытовая__2____000000010002
аудио____3____0000000100020003
видео____4____0000000100020004

substr('0000000100020004', -4 ) = '0004';

id лучше иметь числом, просто потому, что наверняка что-то будете джойнить с этой таблицей, или в рубрике товаров будете использовать id как принадлежность к категории.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 314 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 302 просмотра
3

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 317 просмотров
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 178 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 998 просмотров
5

ответов
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 215 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 173 просмотра
1

ответ
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек. 2025
- 355 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб. 2025
- 335 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 124 просмотра
0

ответов
Показать ещё Загружается…

Answer 1 · 2010-10-14 18:22:22

Может быть стоит все просто кешировать в MemcacheDB и при перестроении менять записи в кеше?

Ключ path
Внутри массив со строкой категории из БД + массив для хлебных крошек

Answer 2 · 2010-10-14 23:02:25

нужно ли предусматривать возможность изменения родительской категории, например при редактировании подкатегории (category/subcategory/… на category/subcategory-1/)? если нет, то возможно Ваш вариант подходит. Если надо предусмотреть эту возможность, да и вообще иметь более гибкую структуру — советую погуглить nested sets

Answer 3 · 2010-10-15 00:29:26

100 000 категорий — это 5 символов на узел в пути. 10*5 — максимальный путь на категорию.
Итого максимум 5 мегабайт данных. Реально — в разы меньше.
Не тот размер, о котором стоит переживать.

Касательно CRC32 и md5
Во-первых, md5 — это в hex-представлении 32 символа на хеш, а в Base64 представлении итого меньше.
Но по сравнению с максимумом в 50 символов, какой-то сомнительный выигрыш, экономите на копейках.
Во-вторых, каким образом тогда собираетесь использовать LIKE для поиска?
md5(«abc») — это не like concat(md5(«ab»), '%')

Вывод: делайте и не парьтесь о размерах.

Answer 4 · 2010-10-18 16:58:30

Могу посоветовать использовать смешанный подход, в как DaBase. См. реализацию.

Т.е. там задействуется как Nested Sets принцип (что ускоряет выборку дочерних элементов), также у каждого узла имеют место быть параметры parent_id и level.

Организация хранения структуры категорий в реляционной БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт