Что использовать в качестве БД для поиска/агрегирования по тегам?

Question

mclander @mclander

NoSQL

Что использовать в качестве БД для поиска/агрегирования по тегам?

Есть задача:
- несколько миллионов, в перспективе, миллиардов записей.
- у каждой записи есть от нуля до сотни тегов и несколько значимых полей (набор тегов ограничен, но медленно расширяется)
- необходимо очень быстро находить первые (по времени/убыванию id) 10-20 тысяч записей по набору тегов (если подходящих записей меньше, то находить все)
- скорость поиска очень важна
- скорость добавления не важна
- размер базы с индексами скорее важен (для десктопной версии), чем нет (иначе логично было бы создать запись в реляционной бд с полем на каждый тег и индексом на него - искало бы быстро, а остальное неважно

Есть ли готовая система, легко ставящаяся и настраиваемая (притом под и под линухом и виндой)?

Понятно, что можно относительно легко замутить своё блекджек с поэтессами, но не очень хочется.

Вопрос задан более трёх лет назад
913 просмотров

1 комментарий

Подписаться 7 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

DevOps-инженер: тариф PRO

7 месяцев

Далее
Merion Academy

Курс по NoSQL. Нереляционные базы данных

1 месяц

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

4 комментария

mclander @mclander Автор вопроса

Ну фактически вы предлагаете вместо встроенного индекса БД строить искусственный индекс.

Не думаю, что это даст приемлемый размер базы. И точно будет медленнее поиска по одной таблице с сотней индексов на каждый тег.

Интересная идея искать именно по наборам. Но тегов около ста. Если решать задачу в лоб, то комбинаций тегов уже будет 2^100. Сохранять их будет как-то дорого. Можно, правда и не сохранять - id тега, может обозначать бит в неком числе, по которому можно построить индекс.

Это уже интереснее и стоит подумать над. Спасибо.

Написано более трёх лет назад
xmoonlight @xmoonlight

mclander: 2^100 - включая перестановки, а если предварительно упорядочивать - то будет меньше в разы.
Если у Вас уже в кортеже есть набор ID-шников для тегов этого набора ("родное" JSON поле для mysql 5.7+), то поиск нужного вхождения тегов в это множество будет выполняться через индекс этого JSON-поля очень быстро ("подкапотными" средствами оптимизации mysql).

Написано более трёх лет назад
mclander @mclander Автор вопроса

Вообщето 2^100 это число без перестановок. С перестановками 100!, что немного больше числа атомов в наблюдаемой Вселенной) Конечно столько комбинаций не будет (их не может быть больше записей в основной таблице), но не хочется проектировать систему, которая может внезапно выйти за пределы вычислительных мощностей отдельного десктопа)

Написано более трёх лет назад
xmoonlight @xmoonlight

mclander: ну ещё есть вариант:
Добавить сразу json поле (перечень ID-шников) с ID-шниками тегов к каждой записи.
Правда про скорость поиска - ничего не знаю: нужно тестировать...
https://www.percona.com/blog/2016/03/07/json-docum...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

NoSQL

+2 ещё

Сложный
Как правильно разрабатывать гибкую клиент серверную архитектуру и делать клиент серверные игры на Godot?
- 1 подписчик
- более года назад
- 163 просмотра
1

ответ
SQL

+1 ещё

Простой
Какую бд лучше выбрать?
- 1 подписчик
- более двух лет назад
- 139 просмотров
1

ответ
NoSQL

Простой
Реально на NoSQLсделать полноценный ИМ?
- 1 подписчик
- более двух лет назад
- 259 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Какие есть песочницы (fiddle) для NoSQL баз данных?
- 2 подписчика
- более двух лет назад
- 400 просмотров
1

ответ
SQL

+2 ещё

Простой
Как оптимальнее всего организовать хранение тяжёлых данных и чтобы потом максимально быстро доставать оттуда данные для отчётов?
- 1 подписчик
- более двух лет назад
- 194 просмотра
3

ответа
MongoDB

+1 ещё

Простой
Проблемы с mongodb. Почему онлайн версия не выполняет запросы?
- 1 подписчик
- более трёх лет назад
- 68 просмотров
2

ответа
NoSQL

Простой
Как смаппить все объекты в один плоский список?
- 1 подписчик
- более трёх лет назад
- 53 просмотра
0

ответов
NoSQL

Простой
Как узнать есть ли id в базе?
- 2 подписчика
- более трёх лет назад
- 117 просмотров
0

ответов
Amazon Web Services

+1 ещё

Простой
Фильтр по части строки?
- 1 подписчик
- более трёх лет назад
- 59 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Простой
Почему не используют NoSql решения на каждого пользователя?
- 3 подписчика
- более трёх лет назад
- 347 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-10 21:23:00

Максим Федоров @Maksclub

ElasticSearch

Обсуждение Sphinx или ElasticSearch?
Боевой опыт у 2ГИС https://habrahabr.ru/company/2gis/blog/213765/

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2017-08-10 16:55:14

Можно попробовать redis с множествами и пересечением
у каждого тега есть свое множество записей

tag1 - record1,record2,record3,record4,record5
tag2 - record5,record6,record3
tag3 - record1,record3,record5

Дальше выполнить мат операцию SINTER tag2 tag2 tag3
В результате получится record3, record5

Если важна сортировка и лимиты - то можно использовать упорядоченные списки и команду ZINTERSTORE - но она менее производительна

Answer 3 · 2017-08-11 08:10:06

Всё не так страшно (MSSQL, mysql,postgres - сгодится):
1. создайте таблицу НАБОРОВ тегов с ID-шниками самих тегов и с ID-самого набора.
2. К каждой записи при добавлении - ставьте нужный ID-шник набора тегов.
3. При выборке по тегам - получаете из таблицы набора нужные ID-шники подходящих наборов.
4. По этим наборам - делаете выборку из основной таблицы с любым нужным фильтром и сортировкой.

Таким образом, Вы ускорите поиск, т.к. не нужно будет проверять уже сами теги и обращаться к другим таблицам для сопоставления (пересечения).

Что использовать в качестве БД для поиска/агрегирования по тегам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт