Как организовать поиск в БД с 1000 таблиц?

Question

Андрей Денисенко @NasherDenn

Инженер NDT PAUT

Проектирование баз данных

Как организовать поиск в БД с 1000 таблиц?

Есть очень много таблиц (>10.000), в каждой от 1 до 50 строк, в каждой разное количество столбцов от 10 до 30 и разная комбинация названий столбцов. Как правильно организовать БД для более быстрого поиска чем обыкновенный перебор?
Пробовал обыкновенный запрос через SELECT - очень долго. Можно ли ускорить поиск через индексацию? Или ещё как-нибудь?

Вопрос задан более года назад
270 просмотров

10 комментариев

Подписаться Средний 10 комментариев

Андрей Денисенко @NasherDenn Автор вопроса

80% - вещественные числа. Остальное строки типа 'A1-3301-AM-390-16-A18-WN' и 'KE01-A1-330-PG-P-DI-1362-001', которые и надо искать среди всех записей в таблицах.

Написано более года назад
Андрей Денисенко @NasherDenn Автор вопроса

SQLite3.

Написано более года назад
Ivan Kudinov @Frostealth

Андрей Денисенко, не понятно что это за приложение такое с более 10000 таблиц и для чего такой поиск. Возможно подойдет вспомогательная таблица, по которой и будет производиться поиск, или вообще другой тип БД (NoSQL), например SearchEngine (Sphinx, ElasticSearch, MeiliSearch, ...).

Поиск прямо по всей реляционной базе сразу - гиблое дело. Индексы не помогут.

Написано более года назад
Андрей Денисенко @NasherDenn Автор вопроса

Спасибо за совет.
Суть приложения такая: есть очень много docx отчётов из которых надо выбрать определённую информацию с последующим поиском по ней. В одном отчёте "от 1 до 50 строк, разное количество столбцов от 10 до 30 и разная комбинация названий столбцов". А поиск должен быть по одному из трёх определённых столбцов.
Решение в лоб уже сделал - гиблое дело, очень-очень-очень-... медленно.

Написано более года назад
Ivan Kudinov @Frostealth

Андрей Денисенко, я правильно понял, что для каждого отчета создается отдельная таблица? Не удобнее ли хранить все отчеты в одной таблице? Какой результат поиска ожидается (например, название отчета, где содержится искомое значение)?

Написано более года назад
Андрей Денисенко @NasherDenn Автор вопроса

Один отчёт одна таблица - как я понял это совсем не правильно.
В каждом отчёте своё количество столбцов и их название. Часть репортов совпадает.
Итог поиска: найти и вывести все строки, в которых есть "KE01-A1-330-PG-P-DI-1362-001" (например).
Думаю сократить количество столбцов и оставить только наиболее часто повторяющиеся и необходимые (исходя из специфики этих отчётов).

Написано более года назад
Алан Гибизов @phaggi

Чем python провинился, что вы пишете в его тэг о проблемах с проектированием базы данных?

Написано более года назад
Алан Гибизов @phaggi

И любопытно было бы взглянуть на заголовки нескольких таблиц вашей базы.
Кстати, откройте секрет, какие объекты описывают ваши таблицы в базе?

Написано более года назад
mayton2019 @mayton2019

Я с ужасом читаю вопрос и комментарии. До того как начать искать все и везде как делает Google,
хотелось-бы узнать доменную область. Что за данные лежат в таблицах?

Автор описывает саму проблему как epic fail проектирования базы. База создается для облегчения поиска
и для ускорения выдачи результата. Если это НЕ РАБОТАЕТ значит мы либо базу спроектировали неправильно.
Либо очень резко поменяли юзкейс. Тоесть мы стали искать какую-то информацию или МЕТАИНФОРМАЦИЮ
которая ищется крайне плохо и неэффективно. А почему неэффективно? Недостаточно индексов?

Почему так много таблиц? Они создавались каким-то автоматическим процессом? Что это за процесс?
Можем ли мы ТАМ найти ответы.

Просто создается впечатление что мы не разработчики а просто It-археологи которым в руки попала находка
и мы глядим на нее с изумлением и пытаемся понять как это работало. Что-то здесь не так. Подход
полностью дискредитирует процесс разработки и анализа. Так нельзя. Так - неправильно.

Написано более года назад
Shavadrius @Shavadrius

Слей эти 10 тысяч таблиц в одну, будет что-то типа "documentID", "columnName", "value" и... собственно все...
Дальше проиндексировать таблицу и будет быстрый поиск.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 2

4 комментария

3 комментария

Андрей Денисенко @NasherDenn Автор вопроса

Обновляться база будет раз неделю. Использовать сервер на начальном этапе не предусматривается (может и вообще не будет).
По сути это десктопная программа на каждом отдельном ноутбуке. Файлы с базой будут просто копировать на каждый ноутбук.
Программа простая. Сложность небольшая - надо ускорить запросы, но знаний не хватает.

Написано более года назад
rPman @rPman

10000 таблиц по 50 записей ускорить индексами не получится, точнее бонус от скорости будет незначительным а вот скорость записи упадет раза в 2-3. Если данные меняются очень редко, то моя схема вполне рабочая.

Как частный случай, можно так же автоматически сгенерировать код создания триггеров, которые на изменение данных будут дублировать их в кеш-таблице, это заметно замедлит изменения в таблицах (так же примерно в 2-3 раза, индексы у таблицы быть должны сразу, плюс должен быть индекс по полю id, так как updates должны обновлять данные а не добавлять их).

Метод создания самодельных индексов достаточно популярный, особенно когда нужно обойти ограничения или недоработки sql сервера. Накладные расходы тут только на запись, и если они редки в приложении - то это идеальный способ решить все проблемы с производительностью

Написано более года назад
mayton2019 @mayton2019

Есть такая концепция. EAV (entity->attribute->value). Вобщем она предполагает что весь бизнес можно положить всего в 2 таблицы.
Я никогда не любил EAV но здесь мы имеем дело с другим маргинальным случаем. Пожалуй объединение
сходных или однородных таблиц в более крупную - было бы правильным направлением.

Из похожих моделей. Триплеты и квартеты из RDF/SemanticWeb (subject->predicate->object).
Вообще в одну таблицу все пишут.

И квинтеты есть. С иерархией.

Или даже просто документы. Mongo, CouchDb могут быть компромиссом если мы сможем выделить строку которая укажет сразу ключом на таблицу + id row. Композиция этих ключей - ключ документа.

По поводу индексов. Действительно для 50 полей индексы строить нет смысла. Даже оптимизаторы БД часто выбрасывают индекс из плана при таких размерах.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Информационная безопасность

+2 ещё

Простой
Данная схема реализации базы данных подходит под рамки 152-ФЗ?
- 1 подписчик
- 17 апр.
- 345 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Проектирование БД: чем сейчас люди пользуются?
- 1 подписчик
- 09 апр.
- 399 просмотров
4

ответа
Проектирование баз данных

Простой
Как лучше сделать базу данных?
- 1 подписчик
- 07 мар.
- 229 просмотров
5

ответов
Проектирование баз данных

Средний
Как спроектировать dwh звезда?
- 1 подписчик
- 05 мар.
- 63 просмотра
1

ответ
Проектирование баз данных

Средний
Выбор между SQL и NoSQL документооринтированной базой данных?
- 2 подписчика
- 01 мар.
- 982 просмотра
2

ответа
Проектирование баз данных

Простой
Как лучше обновлять счётчик записей?
- 1 подписчик
- 27 февр.
- 138 просмотров
4

ответа
Проектирование баз данных

Простой
Как организовать таблицу для хранения ответов теста?
- 2 подписчика
- 21 февр.
- 288 просмотров
2

ответа
Проектирование баз данных

Простой
Как хранить данные о недвижимости?
- 1 подписчик
- 17 февр.
- 182 просмотра
1

ответ
Проектирование программного обеспечения

+1 ещё

Простой
Как правильно спроектировать микросервисную архитектуру?
- 1 подписчик
- 10 февр.
- 192 просмотра
1

ответ
MySQL

+2 ещё

Средний
Как реализовать базу данных таким образом чтобы для каждого клиента она была изолированной при этом было быстродействие (MYSQl)?
- 1 подписчик
- 24 янв.
- 234 просмотра
1

ответ
Показать ещё Загружается…

Администратор баз данных PostgreSQL

HR Prime • Москва

от 260 000 до 350 000 ₽

Team Lead — Платформа данных и аналитики

Small • Алматы

от 5 000 до 6 000 $

Инженер систем хранения данных / СХД

Wanted. • Москва

До 250 000 ₽

80% - вещественные числа. Остальное строки типа 'A1-3301-AM-390-16-A18-WN' и 'KE01-A1-330-PG-P-DI-1362-001', которые и надо искать среди всех записей в таблицах.
Андрей Денисенко, не понятно что это за приложение такое с более 10000 таблиц и для чего такой поиск. Возможно подойдет вспомогательная таблица, по которой и будет производиться поиск, или вообще другой тип БД (NoSQL), например SearchEngine (Sphinx, ElasticSearch, MeiliSearch, ...).

Поиск прямо по всей реляционной базе сразу - гиблое дело. Индексы не помогут.
Спасибо за совет.
Суть приложения такая: есть очень много docx отчётов из которых надо выбрать определённую информацию с последующим поиском по ней. В одном отчёте "от 1 до 50 строк, разное количество столбцов от 10 до 30 и разная комбинация названий столбцов". А поиск должен быть по одному из трёх определённых столбцов.
Решение в лоб уже сделал - гиблое дело, очень-очень-очень-... медленно.
Андрей Денисенко, я правильно понял, что для каждого отчета создается отдельная таблица? Не удобнее ли хранить все отчеты в одной таблице? Какой результат поиска ожидается (например, название отчета, где содержится искомое значение)?
Один отчёт одна таблица - как я понял это совсем не правильно.
В каждом отчёте своё количество столбцов и их название. Часть репортов совпадает.
Итог поиска: найти и вывести все строки, в которых есть "KE01-A1-330-PG-P-DI-1362-001" (например).
Думаю сократить количество столбцов и оставить только наиболее часто повторяющиеся и необходимые (исходя из специфики этих отчётов).
Чем python провинился, что вы пишете в его тэг о проблемах с проектированием базы данных?
И любопытно было бы взглянуть на заголовки нескольких таблиц вашей базы.
Кстати, откройте секрет, какие объекты описывают ваши таблицы в базе?
Я с ужасом читаю вопрос и комментарии. До того как начать искать все и везде как делает Google,
хотелось-бы узнать доменную область. Что за данные лежат в таблицах?

Автор описывает саму проблему как epic fail проектирования базы. База создается для облегчения поиска
и для ускорения выдачи результата. Если это НЕ РАБОТАЕТ значит мы либо базу спроектировали неправильно.
Либо очень резко поменяли юзкейс. Тоесть мы стали искать какую-то информацию или МЕТАИНФОРМАЦИЮ
которая ищется крайне плохо и неэффективно. А почему неэффективно? Недостаточно индексов?

Почему так много таблиц? Они создавались каким-то автоматическим процессом? Что это за процесс?
Можем ли мы ТАМ найти ответы.

Просто создается впечатление что мы не разработчики а просто It-археологи которым в руки попала находка
и мы глядим на нее с изумлением и пытаемся понять как это работало. Что-то здесь не так. Подход
полностью дискредитирует процесс разработки и анализа. Так нельзя. Так - неправильно.
Слей эти 10 тысяч таблиц в одну, будет что-то типа "documentID", "columnName", "value" и... собственно все...
Дальше проиндексировать таблицу и будет быстрый поиск.

Answer 1 · 2023-05-17 03:27:17

Даю совет: базу данных, в которой "есть очень много таблиц (>10.000), в каждой от 1 до 50 строк" нужно удалять, а того, кто её проектировал, увольнять с позором.

Answer 2 · 2023-05-17 06:06:04

То что базу надо правильно проектировать уже сказали.

Правильный ответ на твой зависит от того, какие именно запросы поиска нужно делать и что в результате должно получиться. Как часто нужно делать такие запросы. Какой размер базы данных. Как часто изменяются данные, нужно ли оперативно отслеживать эти изменения чтобы поиск давал всегда оперативные данные.

Теперь, если основываться на моих телепатических способностях, могу предположить что каждая таблица - это отчет, структуры таблиц либо одинаковые либо имеют общие поля, по которым может понадобиться проводить поиск. Поиск нужно проводить строгим сравнением (т.е. ищем не подстроку а конкретное значение) в ответ нужно получить таблицу, строку и колонку, в которой было искомое значение. Поиск нужно проводить регулярно но не часто (например раз в сутки) либо допускается отставание результатов поиска на этот срок (т.е. можно искать данные не новее вчерашнего дня). Могу предложить решение.

Простенькой программой, анализирующей структуру базы данных (списки таблиц и колонок в них) можно написать приложение, которое все все данные во всей базе собирает в одну большую кеш таблицу, полностью ее перезаполняя.

Таблица может иметь вид: tablename, columnname, id, value (если это критично, вместо одного текстового поля value можно заводить по одному на каждый тип или представление данных, в форме, по которой проводится поиск), при заполнении, индексов у этой таблицы быть не должно, в этом случае заполнение будет максимально оперативным (особенно если ее физическое размещение будет на другом носителе, смотри как в твоей базе данных создавать таблеспейсы или иные методы), допускается использование другой базы данных, в каком то смысле это даже более оправдано. Пустые значения (null и под задачу '' и может даже 0) можно сюда не добавлять, если поиск таких значений не актуален. Так же можно пропускать какие то таблицы, поля и даже записи по каким то критериям, если они могут быть не важны для анализа (например фильтрация по дате).

После заполнения в таблицу нужно добавить индексы по value, и опционально по columnname/tablename. Теперь простой запрос select * from эта_cache_table where value=? даст максимально быстро результат.

p.s. если речь идет о простом анализе данных в базе, например изучение структуры человеком, который разбирается в sql, можно очень простым способом сделать sql дамп всей базы и искать нужные значения простым поиском по строке (осторожно, в зависимости от базы данных, символы в строках могут экранироваться различными способами), так же можно поэкспериментировать с разными методами экспорта данных (например почти все базы имеют утилиты экспорта в csv)

Как организовать поиск в БД с 1000 таблиц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт