Как ускорить Postgresql Index Scan?

Question

TestVDK @TestVDK

PostgreSQL

Как ускорить Postgresql Index Scan?

Здравствуйте.

Имеется таблица в 400кк записей, содержит поле integer, есть индекс по этому полю
Нужно выполнить запрос select * from table where field=value.
Вот план запроса:

Index Scan using index_table_on_field on table  (cost=0.57..19452.86 rows=6304 width=58) (actual time=261.061..2025.559 rows=332 loops=1)
   Index Cond: (value = 12345678)
 Total runtime: 2025.644 ms
(3 rows)

При повторном выполнении запрос уже находится в shared_buffers и выполняется гораздо быстрее (несколько мс).

Как ускорить первоначальное выполнение запроса с произвольным value, чтобы данные для любого значения были мгновенно найдены?

Почему такое большое значение actual time в плане запроса?

Вопрос задан более трёх лет назад
3454 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Skillbox

Курс Java-разработчик

4 месяца

Далее
Нетология

SQL и получение данных

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

5 комментариев

Timosha @Timosha

1) чтобы взять строчки с 100 по 115 первые 100 базе всё равно надо выбрать, а в результатах отбросить, так что при offset'е вы выбираете offset+limit строк
2) размеры таблицы и индексов в мегабайтах укажите плз
4) оно просто организует записи в таблице в том порядке в котором они идут в индексе, при поиске по индексу будет меньше random read
5) уложите таблицу в shared_buffers, ибо винты не быстрые. размер shared_buffers обычно указывают как 1/3 либо 2/3 RAM. В зависимости от необходимости.

Написано более трёх лет назад
Timosha @Timosha

таблицу следовало создать с некоторым fillfactor отличным от 100, например 80 - 85. и индекс тоже, кстати. reindex и vacuum обычно не нужны при включенном autovacuum

Написано более трёх лет назад
Alexey Lesovsky @lesovsky

диски SATA это самый начальный уровень, для базы более менее предпочтительно SAS. плюс там SATA-2 (3Gb/s) при большом потоке одновременных запросов к диску можете упереться в потолок производительности.
Покажите размеры индексов.
Если у вас там большие офсеты попробуйте оптимизировать как описано здесь - astarsan.livejournal.com/20121.html

Написано более трёх лет назад
TestVDK @TestVDK Автор вопроса

Кластеризацию сделал. Первые запросы (не по кэшу) могут занимать больше положенных 20-30мс (до десяти секунд). Но в целом прогресс есть. Сейчас пробую скопировать таблицу и тестировать на копии, чтобы не останавливать приложение. Что еще попробовать для мгновенного доступа к произвольным данным?

Написано более трёх лет назад
Timosha @Timosha

можно попробовать принудительно поднимать таблицу в shared_buffers или в файловый кэш ОС, коли уж так важно время первого обращения.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 223 просмотра
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 175 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 158 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 109 просмотров
1

ответ
PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 298 просмотров
5

ответов
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 228 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 151 просмотр
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 133 просмотра
1

ответ
PostgreSQL

Средний
VACUUM в PostgreSQL 15 уже несколько суток в фазе vacuuming indexes что можно сделать?
- 6 подписчиков
- 27 авг.
- 932 просмотра
2

ответа
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

GO разработчик

SMALL

от 220 000 до 300 000 ₽

Python разработчик

АВ Софт • Москва

от 200 000 ₽

Answer 1 · 2014-05-26 10:31:56

выдача результата при первом запросе упирается в скорость чтения c диска, размер индекса и т.н index bloat.
покажите (из psql):
1) \di+ index_table_on_field
2) select * from pgstattuple('index_table_on_field')
3) и вкратце пару слов о дисковой подсистеме (наличие контроллера?, тип дисков, средняя нагрузка по sar -d)

Answer 2 · 2014-05-27 07:52:52

1) Вам точно всегда нужны все строки запроса? Используйте сортировку и limit если нет
2) Вам точно нужны все поля из таблицы? Если нет, то есть смысл указать необходимые поля после select
3) Если postgresql >= 9.2 и нужно только одно поле из таблицы можно попробовать добавить его в индекс и добиться выполнения IndexOnlyScan
4) Если нет других запросов, или они не критичны, можно кластеризовать (CLUSTER) таблицу по этому индексу
5) ну и нет ничего зазорного в том чтобы первый запрос выполнялся не очень быстро, оптимизируйте размер таблицы и shared_buffers чтобы постараться уложить её в память.

Answer 3 · 2014-05-27 09:10:22

Здравствуйте, извините за задержку:
lesovsky:
1) Индексы по искомому полю есть, сейчас не могу показать - пересоздаю индекс после vacuum full
2) ошибку выдает такая команда((
3) Такие диски: www.hetzner.de/en/hosting/produkte_rootserver/ex60 - по поводу sar - не умею им пользоваться, сейчас не установлено

Timosha:
1) Строки я итак беру не все, использую сначала limit 5, потом постранично limit 15 offset ...
2) Даже при выборе select field from table where field=12345678, присутствует Index Only Scan вместо Scan - но все равно поиск долгий, и близко не мгновенный
3) См пункт 2.
4) Буду смотреть документацию по CLUSTER. Есть еще одно поле в таблице аналогичное искомому, с ним ситуация похожая (также нужна выборка по этому полю). Если не затруднит опишите вкратце преимущества CLUSTER.
5) К сожалению таблица растет постоянно, имеется до 10 миллионов уникальных значений field и строки для каждого field непрерывно увеличивается, хочется выдавать пользователям моментально информацию по любому значению, ведь для этого я индекс создавал!

P.S. shared_buffers сколько ставить, у меня сейчас несколько GB (не помню сколько точно), а всего памяти на машине 48GB

P.P.S я месяц держал таблицу, постепенно увеличивал объем, REINDEX и VACUUM вообще не делал
Данные равномерно прибывают и вообще не удаляются (99% INSERT 1% UPDATE)

Буду рад любым рекомендациям и направлениям развития)

ОБНОВЛЕНО
Я сделал VACUUM FULL и DROP/CREATE INDEX - теперь доступ к произвольному значению player_id занимает не больше 2 секунд, но это все равно много. Повторный доступ к player_id, запрашиваемому ранее занимает уже 0.5мс (сидит в shared_buffers).

Timosha:
1) Я немного неправильно написал. У меня в таблице 400кк строк. У них около 10кк разных значений поля player_id. Я делаю запросы вида "select * from table where player_id=123456789 limit 50 offset 150". Здесь основная нагрузка идет на условие where потому при фильтре условием where player_id=123456789 остается максимум 5-10к строк.
2) Основная проблемная таблица participates. Relation_size - 36gb, Total_relation_size - 71gb, Имеется 4 btree индекса по Integer колонкам. Все колонки в таблице - integer 2-4 бита (по необходимости).
4) Следующим шагом проведу кластеризацию
5) Увеличил до 16gb - проверю после перезагрузки

Timosha:
Сначала попробую кластеризацию а потом вариант с частичным индексом

lesovsky:
размеры индексов в предыдущем блоке
с оффсетами проблем нет
ранее с этим сталкивался - сделал промежуточную таблицу с результатами order через row_select - получились целые номера - позиции строк и теперь вместо limit 150 offset 1500 делают where between 1500 and 1650 - очень помогло

Как ускорить Postgresql Index Scan?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт