Как правильно организовать поиск по большому кол-во бд?

Question

Caxa @Caxa

Как правильно организовать поиск по большому кол-во бд?

Есть несколько больших postgresql таблиц(по ≈ 1млн строк в каждой). Например с номерами телефонов и информации о их владельцах.
Пользователь вводит номер, ему выдаётся инфа из бд.
Как сделать поиск максимально производительным? Что использовать? Асинхронность? Многопоточность?

Вопрос задан более двух лет назад
248 просмотров

4 комментария

Подписаться 3 Средний 4 комментария

shurshur @shurshur

1 миллион это не так уж и много. Часто можно и просто в одну базу положить.

Скорее всего, скорости выполнения самих запросов будет самым узким местом. Что асинхронность, что многопоточность тут вполне подойдут: делаем поиск в нескольких базах или в одной базе параллельно и сливаем результаты после их поступления.

Но может быть лучше сделать заранее денормализацию. Например, если ключом во всех базах является номер телефона, то делаем одну таблицу, где есть номер телефона и все поля из остальных таблиц. Тогда любые данные будут получаться за один запрос.

Написано более двух лет назад
d'Ivan @2ord

Один и тот же номер искать сразу в нескольких СУБД?
В рамках какого типа архитектуры программы? Веб-сервер или что-то другое?

Как сделать поиск максимально производительным?
Какие требования к производительности?

Написано более двух лет назад
Модератор @TosterModerator

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.2

Написано более двух лет назад
d'Ivan @2ord

Caxa , а какой опыт имеется в программировании вообще и в работе с СУБД? С какими объёмами данных сталкивался ранее?

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Средний
Почему так много Shared Read Blocks, если запрос под индексом?
- 2 подписчика
- вчера
- 833 просмотра
0

ответов
PHP

+1 ещё

Простой
Как получить id добавленной записи PHP PDO PGSQL?
- 1 подписчик
- 01 июл.
- 162 просмотра
1

ответ
PostgreSQL

Средний
В чем может быть причина сброса значения sequence в БД?
- 1 подписчик
- 23 июн.
- 128 просмотров
1

ответ
PostgreSQL

Простой
Как обнаружить все битые таблицы?
- 1 подписчик
- 12 июн.
- 167 просмотров
1

ответ
Linux

+3 ещё

Простой
Вылеты 1с без ошибок на дебиане, как исправить?
- 1 подписчик
- 10 июн.
- 229 просмотров
2

ответа
PostgreSQL

Простой
Нормально ли дублирование строк в IN?
- 1 подписчик
- 19 мая
- 225 просмотров
3

ответа
PostgreSQL

Простой
Как отработать EXTRACT(epoch FROM MAX(null))?
- 1 подписчик
- 15 мая
- 71 просмотр
1

ответ
PostgreSQL

Простой
Как корректно завершить процесс postgresql?
- 1 подписчик
- 06 мая
- 186 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Почему не запускается PostgreSQL в open server?
- 2 подписчика
- 26 апр.
- 182 просмотра
0

ответов
PostgreSQL

Средний
Как временно повышать права пользователю?
- 2 подписчика
- 23 апр.
- 151 просмотр
1

ответ
Показать ещё Загружается…

DBA (PostgreSQL)

СберТех • Москва

До 420 000 ₽

Инженер баз данных

Сбер • Санкт-Петербург

До 100 000 ₽

QA-инженер/тестировщик

DimaTech Ltd • Краснодар

от 70 000 ₽

1 миллион это не так уж и много. Часто можно и просто в одну базу положить.

Скорее всего, скорости выполнения самих запросов будет самым узким местом. Что асинхронность, что многопоточность тут вполне подойдут: делаем поиск в нескольких базах или в одной базе параллельно и сливаем результаты после их поступления.

Но может быть лучше сделать заранее денормализацию. Например, если ключом во всех базах является номер телефона, то делаем одну таблицу, где есть номер телефона и все поля из остальных таблиц. Тогда любые данные будут получаться за один запрос.
Один и тот же номер искать сразу в нескольких СУБД?
В рамках какого типа архитектуры программы? Веб-сервер или что-то другое?

Как сделать поиск максимально производительным?
Какие требования к производительности?
Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.2
Caxa , а какой опыт имеется в программировании вообще и в работе с СУБД? С какими объёмами данных сталкивался ранее?

Answer 1 · 2023-03-31 02:21:40

Как сделать поиск максимально производительным?

Вопрос из серии "какая машина самая крутая?". Нет решения которое подходит под любой вариант базы и структуры, иначе все только одним им и пользовались, логично?

Есть несколько больших postgresql таблиц(по ≈ 1млн строк в каждой).

Это таблицы среднего размера, ничего большого в них нет. Миллион записей это средняя таблица со статистикой, все должно работать достаточно быстро и без каких-то особых танцев.

Пользователь вводит номер, ему выдаётся инфа из бд.

Ну так сами пробовали сделать 20-30 рандомных запросов и посмотреть скорость, explain, использование индексов? Или мы "боимся заранее"?

Что использовать? Асинхронность? Многопоточность?

Мозги, используйте мозги, это гораздо эффективнее...

Answer 2 · 2023-03-31 12:49:16

Как сделать поиск максимально производительным? Что использовать? Асинхронность? Многопоточность?

Оптимизация запроса к БД начинается с того что вы выделяете сет активных запросов которые важны для вас.
Для каждого из них строите план исполнения запросов
EXPLAIN [ ANALYZE ] [ VERBOSE ] ......
Потом с этим планом приходите к специалисту (или сюда) и спрашиваете что надо улучшить в
тексте запроса или в таблице или в индексе чтоб было быстрее.

Добавление большего числа исполнительных потоков (сессий БД) обычно не улучшает ситуацию
а только ухудшает. Практика это показывает. Мы быстро выходим на пологую кривую пропускной
способности диска - и дальше хоть добавляй потоки - все будет только хуже.

Насчет асинхронных операций - не знаю. Если мы работаем через пул коннектов - то надо обсудить
построение абстракции асинхронности над абстракцией пула. Это тема отдельного топика.

Answer 3 · 2023-03-31 08:17:53

Есть несколько больших postgresql таблиц(по ≈ 1млн строк в каждой).

1млн не так много данных, но если не хватает скорости то можете попробовать создать индексы. Со стороны клиента можно создать пул соединений.

Answer 4 · 2023-03-31 14:50:55

Есть несколько больших postgresql таблиц(по ≈ 1млн строк в каждой).

Слейти их все в одну таблицу и не нужен вам никакой параллелизм.

Как правильно организовать поиск по большому кол-во бд?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт