Как парвильно настроить распределение данных?

Question

arturich @arturich

PostgreSQL

Как парвильно настроить распределение данных?

Хочется узнать это вообще возможно?

Что у нас есть:

СУБД Postgresql
10-20 таблиц с разными данными в которых предполагается до 7 млрд записей в каждой
Все записи так или иначе принадлежат сущности — “Рекламная кампания”

Что хочется:

Разбить данные на части внутри одного сервера и, если новые данные не влезают на данный сервер (по нашим критериям, например: количество кампаний на одном сервере на более 1 млн.), записывать их на другой свободный (пока не важно кто принимает решение на какой именно).
Обязательно! Одна “Рекламная кампания” и все подчиненные ей записи на одном сервере, так как много связанных запросов. Это нужно, чтобы исключить запросы на более, чем один сервер для получения любой информации по кампании.
Представление каждой таблицы должно быть простым — т.е. клиентский код должен просто запрашивать/добавлять/обновлять данные из единой таблицы. Типа того — просто SELECT * FROM “data”.”campaigns” и т.п, хотя при этом как я писал выше эта таблица должна биться на части для быстрого поиска так как обычно работает с одной “Рекламной кампанией” за раз.
Хочется работать без спец. хранимых процедур.

Для чего это всё?

Не хочется хранить такой большой объем данных на одном сервере в одной таблице (под этим я понимаю каждую из «10-20 таблиц с разными данными»), так как существенно замедляется поиск данных — например иногда надо искать по тексту, но при этом мы знаем в какой «Рекламной кампании» она. Но так как индекс общий — большие кампании будут мешать маленьким.

Вопрос задан более трёх лет назад
2960 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

3 комментария

1 комментарий

3 комментария

arturich @arturich Автор вопроса

Так-то да, но тогда при каждом запросе получается будет напрягаться основной сервер. Ведь так?

Написано более трёх лет назад
ToSHiC @ToSHiC

Не особо сильно. Диски и память в основном будут использоваться на тех машинах, где собственно данные лежат. Поднимите тестовый стенд из 3 машинок да поглядите.

Написано более трёх лет назад
arturich @arturich Автор вопроса

Ну хорошо, но тот же скайп же через pl proxy работает — там история, правда, другая — ИМХО слишком размазано для моего случая.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 103 просмотра
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 356 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 173 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 340 просмотров
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 350 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 359 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 807 просмотров
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 323 просмотра
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 390 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 217 просмотров
0

ответов
Показать ещё Загружается…

Да, еще хочется делать JOIN для этих таблиц

Answer 1 · 2012-07-17 15:55:23

alz @alz

А просто шардинг Вам не подходит?

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2012-07-17 17:35:42

Вся логика на клиенте. Если клиент для определенного id все время работает с одним и тем же сервером, то на других серверах ничего и не будет

Answer 3 · 2012-07-17 20:43:29

На мой взгляд получается противоречие в требованиях: с одной стороны разделение данных, а с другой стороны — выборка из одного места.

Возможные варианты:
* partitioning + репликация
* дополнительные индексы включающие в себя id кампании
* экзотические решения sqlrelay.sourceforge.net/sqlrelay/router.html (не проверял)

Answer 4 · 2012-07-18 09:39:20

www.postgresql.org/docs/8.1/static/ddl-partitioning.html

В качестве ключа, по которому делается партиционирование, во всех таблицах надо указать id кампании.

Как парвильно настроить распределение данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт