Как ускорить запрос в postgresql?

Question

Виктор @victor1234

IT: Компьютерное зрение, linux, с++

Как ускорить запрос в postgresql?

Есть таблица с пятью полями типа int. В ней несколько миллионов записей (в дальнейшем будут десятки миллионов или сотни)
Один из столбцов (word_id) проиндексирован b-tree индексом, по нему происходит поиск вида:

select * from keypoints where word_id in ( около 500-1000 значений)

Такой запрос на моем неспешном ноуте занимает 200-300с, iotop показывает, что идет чтение с диска. В результате может вернуться десятки тысяч записей. Повторно запрос выполняется много быстрее.

В конфиге postgresql менял настройки только авторизации.

Вопрос: такой запрос впринципе некорректен и не может выполняться быстро или можно что-то соптимизировать?

Update:
Вывод explain для одного where:

explain select * from keypoints where word_id=27601;

Bitmap Heap Scan on keypoints (cost=28.37..4118.23 rows=1080 width=24)
Recheck Cond: (word_id = 27601)
-> Bitmap Index Scan on keypoints_search_idx (cost=0.00..28.10 rows=1080 width=0)
Index Cond: (word_id = 27601)
(4 rows)

Time: 696,716 ms

Вопрос задан более трёх лет назад
2446 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Нетология

Инженер по тестированию

8 месяцев

Далее
Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

7 комментариев

Виктор @victor1234 Автор вопроса

Долбавил вывод explain

Написано более трёх лет назад
Макс @MaxDukov

Виктор: а что у нас в "in ( около 500-1000 значений)" ? там же тоже какой-то SELECT, я предполагаю? сделайте EXPLAIN всего запроса. "Внешний" SELECT ищет по индексу - и ищет не быстро.
4 строки по индексу за 0,6 секунды - это долго. IMHO должно быть раз в 20 быстрее. Совсем древний ноут? винтажный - ламповый?

Написано более трёх лет назад
Виктор @victor1234 Автор вопроса

500-1000 значений генерятся программно, не используя бд, ноут не оч древний, но может свопит что, для чистоты залью на do, посмотрю там.

Написано более трёх лет назад
Макс @MaxDukov

Виктор: о как....
тогда может быть имеет смысл сперва залить эти "500-1000" значений в БД в темповую табличку (если бы Вы использовали MySQL, я бы еще посоветовал заюзать движок MEMORY ), и уже "там" (в БД) заварить всю кухню? не удивлюсь, если тормоза именно из-за большого размера IN ( ), который БД еще и не может оптимизировать - он указан в явном виде в параметрах запроса.

Написано более трёх лет назад
Макс @MaxDukov

Виктор: к слову - оказывается это известный трабл и я "изобрел велосипед" - www.xaprb.com/blog/2006/06/28/why-large-in-clauses...
Так что
1. заливаем список в БД
2. И SELECT c JOIN.
и будет Вам если не счастье, то хотя-бы облегчение.

Написано более трёх лет назад
Макс @MaxDukov

Виктор: советуют еще вариант - заменить "IN" на "= ANY". Вроде как во втором варианте POSTGRESQL сам создает временную таблицу со списком из "( )" , джойнит - и т.д.

Написано более трёх лет назад
Виктор @victor1234 Автор вопроса

Я ошибся с количеством записей. Как раз когда их было 2-3 млн, поиск занимал 1с, что мен я устраивало. Теперь, когда их 20-30 млн, поиск идет кучу времени. Я понимаю, что весь объем базы не загрузить в оперативную, но как посмотреть влезает ли туда, хотя бы индекс?

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 231 просмотр
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 175 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 163 просмотра
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 75 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 109 просмотров
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 180 просмотров
2

ответа
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 175 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 190 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 211 просмотров
2

ответа
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 ₽

Golang Developer (Уфа)

TAGES • Уфа

от 50 000 до 143 400 ₽

Answer 1 · 2015-08-26 12:43:47

По порядку:

Повторно запрос выполняется много быстрее.

Значит, вы с головой упёрлись в диск.
Вариант есть только один - ставить быстрый диск.
Вариант похуже, т.к. диск всё равно у вас останется медленный и если не на чтении, то на старте и на записи вы туда упрётесь очень хорошо - использовать больше памяти. Чтобы как можно данных было в памяти. Но при работе эти данные всё равно надо поднимать с медленных дисков, потому базу сначала придётся разогревать. Есть даже штатная утилитка pg_prewarm

В конфиге postgresql менял настройки только авторизации.

По дефолту там что-то несмешное вместо shared_buffers. 32 что ли мегабайта? И это на ключевую характеристику базы.
Увеличивать хотя бы до 20% от общего объёма памяти на машине.

В третьих, актуальный Postgresql довольно плохо умеет развесистый IN. И тому есть не совсем очевидное решение - переписать в join:

select count(*) from test JOIN (VALUES (1),...,(10000)) AS v(val) USING (val);

Такой вот hash join работает быстрее IN. На 10000 элементах получали 10мс против 380мс у IN.

Answer 2 · 2015-08-26 12:33:51

думаю, пора открывать для себя команду EXPLAIN и посмотреть план исполнения, используются ли индексы вообще. Причем смотрите как на основной запрос, так и на вложенный.
судя по

занимает 200-300с, iotop показывает, что идет чтение с диска.

- нет, происходит FULL SCAN.
правка конфига поможет, если захотите поиграться с размерами кэша. Пока проблема, похоже, именно в индексах.

Answer 3 · 2015-08-26 12:23:01

Дмитрий Ковальский @dmitryKovalskiy

программист средней руки

А как определяется список "около 500-1000 значений"? Я бы постарался избавиться от вложенного запроса. Через Join или некое WHERE.

Ответ написан более трёх лет назад

1 комментарий

Как ускорить запрос в postgresql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт