Postgresql не обрабатывает запросы. Почему?

Question

VMCLOUD @VMCLOUD

PostgreSQL

Postgresql не обрабатывает запросы. Почему?

Собственно, коллеги, ситуация следующая.

Имеется PGSQL 9.2, на сервере 2 * Xeon 2620 CPU \ 128 Gb Ram \ 8 * 600Gb SAS (Raid 10). Канал 1Gbps.

Размер базы около 200 Gb с индексами. Конфиг базы pastebin.com/RN6CKXPP На фронтендах стоят pgbouncer-ы, фронтенды обрабатывают до 1к запросов в минуту.

Раз в сутки база начинает намертво виснуть (не выполнять запросы), или тупить на очень простых запросах (раньше например простой select выполнялся 1 секунду, теперь 30-90). На практике такое впервые, поэтому и не знаю куда копать.

Прошу помощи! Если необходимо предоставлю более подробные данные .

Вопрос задан более трёх лет назад
3357 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

OTUS

PostgreSQL. Advanced

4 месяца

Далее
Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее
Слёрм

PostgreSQL База

4 недели

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

vyegorov @vyegorov

`checkpoint_segments` уменьшать не стоит, кроме занимаемого места и увеличения периода между чекпойнтами они не оказывают влияния на работу базы.

Написано более трёх лет назад
Timosha @Timosha

@vyegorov не соглашусь. "At checkpoint time, all dirty data pages are flushed to disk and a special checkpoint record is written to the log file." Таким образом одномоментно база пытается записать checkpoint_segments * checkpoint_completion_target * 16MB данных на винчестер. в данном случае это около 15GB.

Написано более трёх лет назад
vyegorov @vyegorov

@Timosha, тут дело в архитектуре. Все таблицы поделены на страницы (pages), это сделано для удобства администрирования. Соответственно, кэш базы (shared_buffers) состоит из этих страниц. Каждое изменение в данных должно быть записано на диск (WAL, последовательная запись), но синхронизация страниц откладывается, т.к. тут запись произвольная. Так вот checkpoint_segments — это то, куда пишется WAL. И он не может быть связан с чекпоинтом, т.к. чекпоинт подразумевает запись измененных страниц (грязных) в их места в файлах таблиц. И кол-во сегментов влияет только на время до следующего чекпоинта, т.е. если их мало, то база будет часто делать чекпоинты и жаловаться. Попробуйте поставить сегменты=3 и дать хорошую нагрузку.

Кстати, максимальный объем записываем данных не может быть больше размера shared_buffers, т.к. смысл чекпоинта в сохранении на диск грязных данных из кэша.

Рекомендую эти слайды для понимания, увы, на английском, хотя и в картинках.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 02 дек.
- 184 просмотра
2

ответа
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 411 просмотров
4

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 354 просмотра
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 243 просмотра
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 226 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 262 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 113 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 233 просмотра
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 155 просмотров
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 142 просмотра
1

ответ
Показать ещё Загружается…

DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Senior Golang Developer

SMALL

от 280 000 до 350 000 ₽

Golang Developer

SMALL

До 370 000 ₽

Answer 1 · 2014-08-03 10:50:50

если в момент "зависания" количество запросов не изменятся, то есть их внезапно не становится в 10 раз больше. смотрите где именно затык, I/O, CPU? Какие запросы волполняются в этот момент, сколько памяти потребляют процессы, сколько активных процессов postgresql в этот момент? Что происходит с дисками? запись/чтение?
Судя по конфигу, при незначительном объёме изменений может происходить запись checkpoint. Уменьшите checkpoint_segments = 1024 раз в 10
work_mem = 768MB тоже слишком много. 10МБ более чем достаточно для большинства задач
а default_statistics_target = 50 наоборот мало, учитывая дефолтное значение - 100, поставьте 200-300.
Не понятен мотив подкрутки параметров планировщика, зачем?

Answer 2 · 2014-08-08 11:28:24

Не хватает информации, но попробую.

В чем может быть проблема?
Имеем:

128Гб всего;
50Гб отдано под кэш, т.е. системе эта память недоступна.

Итого 78Гб используемой памяти.

База может исполнять до 500 (max_connections) запросов параллельно. Каждый из них может использовать как минимум 768Мб (work_mem) для операций сортировки/группировки/хэширования. “Как минимум” потому, что если запрос требует нескольких таких операций, то 768Мб съест каждая из них.

Если предположить, что запросы простые и используют не более одной подобной операции, то при доступной памяти (78Гб) можно себе позволить 104 таких запроса. Т.е. параметр `max_connections` должен быть равен (78*1024/768) = 104, или система уйдет в своппинг при такой нагрузке.

Если установленное кол-во возможных сессий необходимо, то память нужно уменьшить до (78*1024/500) = 160, это если не будет сложных запросов.

Мне кажется, что в те моменты, когда база “стоит на коленях” как раз и происходит такая ситуация, когда выделенные ей ресурсы превосходят физически доступные и ядро уходит в своп. Это если исключить возможность любых других процессов в системе — мало-ли, запускается ручной VACUUM в такие моменты...

А как проверить, что же происходит на самом деле?
Мониторить. Прежде всего ось. Либо готовыми системами (zabbix и nagios самые распространенные в моей практике), либо использовать `vmstat` или `dstat` (я их использую в 95% случаев). Это позволит “увидеть” что происходит в системе, как работает память и подсистема ввода-вывода, своппинг.

Выжать больше информации из самой базы. Как минимум я всегда включаю следующие опции:

log_min_duration_statement = 300
log_checkpoints = on
log_connections = on
log_disconnections = on
log_lock_waits = on
log_temp_files = 0
track_functions = pl
track_io_timing = on
log_autovacuum_min_duration = 5000

Да — в логах будет гораздо больше информации, но так удобнее. Если известна конкретная база с проблемами (из многих), то избыточное логгирование можно включить только для нее через `ALTER DATABASE ... SET ...`. Тоже самое применимо и для конкретных пользователей. Однако я предпочитаю полное логгирование на уровне всего кластера.

Также рекомендую просматривать (и, возможно, сохранять снимки) статистических таблиц, как минимум `pg_stat_activity` и `pg_locks`.

Что можно сделать сразу?
Все нижесказанное мое мнение, я очень рекомендую изменять настройки обдуманно и, желательно, проверять новую конфигурацию через нагрузочные тесты.

`shared_buffers` уменьшить, до 8Гб (на крайний случай 16). Чем больше размер, тем больше расходы базы на обслуживание кэша. PostgreSQL страдает от избыточной конкуренции за доступ к кэшу при его больших размерах. Сравнительно небольшой кэш при большом объеме памяти будет вести себя хорошо, т.к. ОС тоже кэширует файлы и доступ к блокам будет быстрым (медленнее, чем сразу из shared_buffers, но быстрее, чем при холодном старте системы);
`default_statistics_target` увеличить. Понижать этот параметр я в принципе не вижу смысла. Учитывая размер базы в 200Гб предположу, что есть несколько таблиц в сумме занимающих более 50% это объема. Потому увеличил бы этот параметр до 200 для всей системы, и для индивидуальных колонок в больших таблицах еще выше, но это уже при настройке индивидуальных запросов. Главное после изменений проанализировать базу;
`max_connections` нужно уменьшить. Я бы оставил этот параметр на уровне 150-200 сессий. Также непонятно наличие нескольких pgbouncer-ов. Нужно оставить только один и, если необходимо, настроить в нем несколько пулов. Эффект будет лучший при меньших накладных расходах;
`work_mem` нужно уменьшить. Я бы его установил в 32Мб, это уже очень хорошо. Данный параметр меняется на уровне сессий, потому обычной практикой для больших скриптов/отчетов является его выкручивание под нужды конкретного отчета. Скажем, у меня есть отчет, где первым делом этот параметр устанавливается в 900Мб под нужды этого отчета, значение получено через `EXPLAIN ANALYZE`. Как вариант, можно завести пользователя (или нескольких) для отчетов (или тяжелых запросов) и им в настройках прописать более высокое значение `work_mem`.

В заключении — я думаю вам нужно изменить параметры базы и получить больше информации о том, что происходит. После этого можно будет говорить о ситуации дальше.

Postgresql не обрабатывает запросы. Почему?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт