Как оптимизировать производительность большой базы в postgresql?

Question

tsegorah @tsegorah

Как оптимизировать производительность большой базы в postgresql?

Есть база данных в postgresql под rhel для очень специфичного ПО (специфичность заключается в том, что, например, связи между таблицами могут хранится не в БД, а в прикладном ПО).
Объемы базы в пределах до 100-200 гигабайт.
Есть довольно шустрое железо, это около 200+ гигов оперативы, доступных и четыре Xeon E5-4640.

95% запросов к базе будут на выборку данных, приблизительно равномерно по частоте размазаны тривиальные селекты и join нескольких таблиц со сложными условиями. Данные приблизительно равнометно запрашиваются из разных таблиц.
5% запросов будут на запись небольших объемов данных.

Вопрос в том, как лучше оптимизировать все под такую задачу, вариант просто положить в БД данные и минимальный тюнинг СУБД не дают нужной производительности.

Сразу на ум приходит несколько вариантов.

Первый вариант это ограничиться просто вдумчивым тюнингом СУБД.
К счастью, на офф сайте документации достаточно (например, тут wiki.postgresql.org/wiki/Performance_Optimization).
Но тут остаются вопросы по тому насколько СУБД сможет использовать все ресурсы, и не будет ли проблем с долгим "прогревом".

Второй вариант обусловлен тем, что вся база поместится в оперативную память. Можно примонтировать оперативку и настроить соответствующим образом табличное пространство.
Но тогда возникает вопрос стабильности и согласованности данных, ведь память то энергозависимая. Как вариант, можно предусмотреть репликацию с такой же БД на харде,
или единую точку входа для прикладного ПО, которая будет отправлять все запросы в обе базы.

Третий вариант обусловлен тем, что большая часть запросов на чтение. Разделить аппаратные ресурсы на несколько реплик БД и соответствующим образом организовать запросы на чтение/запись.

Партицирование просьба не предлагать, это и так отдельный кусок базы, которые далее нецелесообразно отделять.

Понятное дело, что все варианты будут проверяться, эмулироваться нагрузка на машину в разных вариантах и тд, что бы определить наиболее оптимальный.

Хотелось бы услышать советы, если кто-то занимался решением подобных задач. Возможно, есть еще варианты или как-то можно развить эти, или кто-то в подобных вопросах уже напарывался на грабли.
То есть буду благодарен любым подсказкам по этому вопросу.
Мануалам по данной теме буду то же благодарен, если они не с первых страниц гугла)
Спасибо.

Вопрос задан более трёх лет назад
9811 просмотров

1 комментарий

Подписаться 7 Оценить 1 комментарий

Решения вопроса 2

1 комментарий

3 комментария

tsegorah @tsegorah Автор вопроса

За pgbouncer спасибо. Попробуем настроить и сравнить производительность.

Написано более трёх лет назад
Алексей Сундуков @alekciy

@tsegorah pgbouncer ставить нужно обязательно, установка соединения в PostgreSQL достаточно дорогая операция (разница может быть в десятки раз).

Написано более трёх лет назад
tsegorah @tsegorah Автор вопроса

Спасибо. Необходимость готовых соединений очевидна , но про утилиту не думал, привык что пул подключений держит обычно сервер приложений за меня, а тут надо руками)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- вчера
- 52 просмотра
0

ответов
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 87 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 108 просмотров
0

ответов
PostgreSQL

Простой
Как правильно реализовать перевод данных из STG в ODS при помощи SCD2 в PostgreSQL?
- 1 подписчик
- 11 авг.
- 42 просмотра
0

ответов
Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 261 просмотр
2

ответа
PostgreSQL

Простой
Почему возникает ошибка «authentication method 10 not supported»?
- 1 подписчик
- 31 июл.
- 85 просмотров
0

ответов
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 830 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в выборке sql обратиться к предыдущей записи?
- 2 подписчика
- 30 июл.
- 273 просмотра
6

ответов
Linux

+2 ещё

Простой
Postgres Docker: Странные временные файлы в папке overlay2?
- 1 подписчик
- 23 июл.
- 238 просмотров
1

ответ
PostgreSQL

Простой
Почему не удается авторизоваться под юзером postgres?
- 1 подписчик
- 22 июл.
- 141 просмотр
3

ответа
Показать ещё Загружается…

AS400 / RPG Инженер

DevCube Innovations

от 4 000 до 5 000 $

Инженер АСУ ТП

Магнитогорск Связь Софт • Магнитогорск

от 100 000 до 250 000 ₽

Инженер-разработчик встроенного ПО прецизионных приборов

НИИП • Москва

от 150 000 до 250 000 ₽

первое на что стоит смотреть после тюнинга - prepared query

Answer 1 · 2014-01-24 10:59:17

Собственно, вам нужно поднять значение shared_buffers до величины, чтобы в них влезала ваша максимальная выборка ( общий объем всех таблиц самого большого джойна), установить work_mem так, чтобы все сортировки оказывались в оперативной памяти (смотрится explain analyzeом), а потом (или, скорее - в процессе) заставить вашу машину со всем этим работать, донастроив ядро.

Answer 2 · 2014-01-24 10:53:13

Теоретически (да и практически, чаще всего), PostgreSQL умный. То есть, весьма велика вероятность, что вам хватит "вдумчивого тюнинга". Правда, тюнинговать придется не только БД, но и операционку (в случае Linux лопатится примерно четверть доступных sysctl).
Монитровать оперативку скорее всего просто не нужно - как я уже писал, PostgreSQL умный и обычно справляется сам (разумеется с правильными настройками).
Делить аппаратные ресурсы в вашем случае тоже смысла особого не имеет - PostgreSQL очень хорошо параллелится.
Возможно, вам еще стоит посмотреть в сторону pgbouncer - в режиме transaction и с постоянными соединениями он держит СУБД в "разогретом" состоянии, а это, насколько я понимаю, в данном случае и будет являться потенциальным бутылочным горлышком.

Answer 3 · 2014-01-24 10:48:31

Из вопроса не совсем ясна структура данных. Т.е. кретична ли высокая согласованность данных? Требуют ли данные транзакции?
Если устраивает подход "согласованность в конечном счете", то вероятно есть смысл смотреть в сторону NoSQL и там использовать MapReduce

Как оптимизировать производительность большой базы в postgresql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт