Какие решения существуют для индексированного поиска по десяткам полей огромных таблиц?

Question

Asmodeux @Asmodeux

Базы данных

Какие решения существуют для индексированного поиска по десяткам полей огромных таблиц?

Ищем решение для поиска по любому полю в нескольких связанных таблицах реляционной БД: документы, транзакции, проводки, события. Размер таблиц — десятки и сотни млн записей.
Поиск идет в одной из шард, определяемой по дате.

В таблицах бывает до 80 полей, и различным отделам они все нужны для анализа, и практически все задействованы в поиске. Поиск почти всегда точечный с прицелом на 1-2 записи из каждой таблицы, но иногда нужно выбрать из одной из таблиц от десятков до сотен тысяч записей (1 документ - 500 тысяч связанных проводок). Для поиска используется 2-3 поля, которые являются какими-либо идентификаторами, сильно сужающими выборку (до нескольких записей в пределах нужной даты).

Есть несколько отделов: операционный центр, диспуты, коллекторы, бухгалтерия, аудит, комплаенс, профильные отделы по разным группам транзакций, сопровождение бизнеса и другие. В отделах есть разделение на функции, и в итоге им нужны множества атрибутов для поиска. Всего получается заметно больше 50 множеств, что делает невозможным создание частично индексированных реплик под каждую такую группу пользователей.

Можно не SQL.

Вопрос задан 04 февр.
3582 просмотра

6 комментариев

Подписаться 4 Простой 6 комментариев

ThunderCat @ThunderCat

Звучит как еластиксерч/сфинкс...

Написано 04 февр.
Everything_is_bad @Everything_is_bad

чем не устроил анализ планов запрос и создания индекса по каждому полю который присутствует в фильтрациях в плане?

Написано 04 февр.
Asmodeux @Asmodeux Автор вопроса

Everything_is_bad,
Получается под 50 индексов на таблицу, хочется что-то более изящное.

Написано 04 февр.
Asmodeux @Asmodeux Автор вопроса

ThunderCat,
Нам нужно связать разные таблицы, то есть поддержка реляционности в каком-то привычном виде. Плюс комбинация полей - 2-5 штук часто используются.

Написано 04 февр.
Everything_is_bad @Everything_is_bad

Asmodeux, если ты хочешь по чему-то быстро искать, это чему-то должно быть проиндексировано

Написано 04 февр.
Василий Банников @vabka

Asmodeux, можно для поиска загнать данные в эластик в денормализованном виде, а при выдаче данных подробных данных по документу - уже делать поиск по id в основной базе.

Написано 04 февр.

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Веб-разработка

+1 ещё

Средний
Как реализовать синхронную регистрацию на сайте и форуме(XenFORO) мб(связать их бд)?
- 1 подписчик
- 24 мар.
- 72 просмотра
0

ответов
Веб-разработка

+1 ещё

Средний
Хорошая ли идея создавать БД на стороне клиентской части (фронтенда)?
- 1 подписчик
- 11 мар.
- 252 просмотра
3

ответа
SQL

+2 ещё

Простой
Почему нельзя создать поля типов Boolean или Date в Sqlite через DBeaver или SqliteStudio?
- 1 подписчик
- 29 февр.
- 176 просмотров
2

ответа
Python

+2 ещё

Простой
Как вписать в дискорд бота команду по выдаче роли с удалением предыдущих ролей?
- 1 подписчик
- 29 февр.
- 86 просмотров
1

ответ
Базы данных

Простой
Как максимально быстро найти в диапазоне IP-адресов или подсетях нужный IP-адрес?
- 3 подписчика
- 22 февр.
- 199 просмотров
4

ответа
Node.js

+3 ещё

Средний
Почему при установке Sequelize, не устанавливается pgAdmin?
- 1 подписчик
- 18 февр.
- 62 просмотра
3

ответа
Базы данных

Простой
Какую бесплатную глобальную базу данных вы порекомендуете для хранения данных пользователей (логин, имя, дата авторизации и т. п.)?
- 1 подписчик
- 09 февр.
- 205 просмотров
4

ответа
Базы данных

+4 ещё

Сложный
Какие шаги в плане инфобеза необходимо пройти для запуска приложения в App Store и Play Market, если приложение работает с ПДн?
- 1 подписчик
- 07 февр.
- 123 просмотра
2

ответа
MySQL

+3 ещё

Средний
Можно ли такое реализовать с помощью MySQL?
- 2 подписчика
- 05 февр.
- 710 просмотров
4

ответа
Показать ещё Загружается…

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

Аналитик данных (Инвестиции)

Intelinvest

от 50 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Доработать парсер на питоне селениум

09 апр. 2024, в 14:34

10000 руб./за проект

Быстро и срочно разработать WhatsApp бота

27 апр. 2024, в 14:29

3500 руб./за проект

Необходимо код на Python для редактирования товаров ВКонтакте

27 апр. 2024, в 14:27

1000 руб./за проект

чем не устроил анализ планов запрос и создания индекса по каждому полю который присутствует в фильтрациях в плане?
Everything_is_bad,
Получается под 50 индексов на таблицу, хочется что-то более изящное.
ThunderCat,
Нам нужно связать разные таблицы, то есть поддержка реляционности в каком-то привычном виде. Плюс комбинация полей - 2-5 штук часто используются.
Asmodeux, если ты хочешь по чему-то быстро искать, это чему-то должно быть проиндексировано
Asmodeux, можно для поиска загнать данные в эластик в денормализованном виде, а при выдаче данных подробных данных по документу - уже делать поиск по id в основной базе.

Answer 1 · 2024-02-04 21:17:34

В реляционных БД нельзя сделать серебрянную пулю которая всегда будет успешно стрелять.
Чаще всего в БД делают так. Анализируют какие группы запросов наиболее тяжелые
и пытаются материализовать по 1 mat view на каждую группу.

Можно сделать более детальный партишенинг (у вас шардинг) тами образом чтобы искомые данные
всегда лежали в маленькой части таблицы.

Поиск идет в одной из шард, определяемой по дате.

Попробуйте более детальную дату. От суток - к часам. От часов к минутам.

Для поиска используется 2-3 поля, которые являются какими-либо идентификаторами, сильно сужающими выборку (до нескольких записей в пределах нужной даты).

Если у вас есть тренд на использование 1-2 дней (оперативная информация)
то отгрузите этот опер-период в отдельную свехр-быструю БД (Redis)
и сгенерируйте все возможные комбинации запросов и ответов.

Звучит странно но такая материализация может быть выгоднее чем точечные
запросы (которые у вас не являеются OLTP т.к. возвращают в общем случае
более чем 1 строку).

Есть несколько отделов: операционный центр, диспуты, коллекторы, бухгалтерия, аудит, комплаенс, профильные отделы по разным группам транзакций, сопровождение бизнеса и другие. В отделах есть разделение на функции, и в итоге им нужны множества атрибутов для поиска. Всего получается заметно больше 50 множеств, что делает невозможным создание частично индексированных реплик под каждую такую группу пользователей.

Здесь я не очень понял, является ли указание отдела взаимоисключающим. Но попробуйте
подумать направлении фасетов (facets). Это почти тот-же партишенинг-шардинг но ключ
партишенинга будет сочетанием нескольких атрибутов.

Answer 2 · 2024-02-04 20:09:18

Константин Цветков @tsklab

Здесь отвечаю на вопросы.

OLAP

Ответ написан 04 февр.

Комментировать

Answer 3 · 2024-02-06 02:30:09

Пума Тайланд @opium

Просто люблю качественно работать

Если дешёво и сердито то сфинкс, если дорого и богато то еластик

Ответ написан 06 февр.

Комментировать

Какие решения существуют для индексированного поиска по десяткам полей огромных таблиц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт