Почему поиск без индекса быстрее поиска с индексом?

Question

Евгений Усачев @Eugene_Evgeni

Почему поиск без индекса быстрее поиска с индексом?

Очень странная ситуация.
Я решил "поиграть" с базой данных и создал БД с 20 000 000 записей и провёл пару тестов. По идеи, запись с индексом должна быть дольше, а поиск элементов быстрее. Тесты были такие:

Вопросы тестирования

заполнение БД;
добавление 100 элементов;
получение 100 000 элемента;
получение 20 000 000 элемента;
получение элементов в котором встречается число 2555;

Сейчас я приведу пример своего кода на nest js, но он лишь обёртка, так что под ним я ещё и запишу команды ( SQL-запросы). Так же я в обоих случаях заполнял БД одинаково без nestjs ( смотрите в SQL-запросах). Тесты в обоих случаях одинаковые, сравниваю по индексу key ( само поле chatKey ).

Вот код на nestjs:

spoiler

модель

@Table({tableName: 'chats', createdAt: false, updatedAt: false})
export class MessageTable extends Model {

@Column({type: DataType.INTEGER, primaryKey: true, unique: true, autoIncrement: true})
id: number;

@Column({type: DataType.JSON})
members: number[];

@Index('key')
@Column({type: DataType.TEXT})
chatKey: string;

@Column({type: DataType.INTEGER})
author: number;

@Column({type: DataType.STRING(32)})
date: string;

@Column({type: DataType.STRING(255)})
data: string;

@Column({type: DataType.STRING(511)})
files: string;

}

тесты

addMessage = (number: number) => {
return new Promise( (res) => {
this.ChatRepository.create({
id: 20000000 + number,
author: number,
date: 'asd',
chatKey: (20000000 + number).toString(),
data: 'das',
files: '[]',
members: [1]
}).then( () => {return res('das')});
})
}

getMessageByKey = (number) => {
return new Promise( (res) => {
this.ChatRepository.findAll({where: {chatKey: number.toString()} } )
.then( (response) => res(response))
})
}

getMessagesByKey = (number) => {
return new Promise( (res) => {
this.ChatRepository.findAll({where: {
chatKey: {
[Op.like]: `%${number.toString()}%`
}
} } )
.then( (response) => res(response))
})
}
for (let indexx = 0; indexx < 100; indexx++) {
this.messageService.addMessage(indexx + 3)
.then( () => {if (indexx === 99) {
console.log('Ready by ' + (Date.now() - this.DateNow) );
} })
}
this.messageService.getMessageByKey(100000).then( (res) => {
console.log(res);
console.log('Ready by ' + (Date.now() - this.DateNow));
})

this.messageService.getMessageByKey(20000000).then( (res) => {
console.log(res);
console.log('Ready by ' + (Date.now() - this.DateNow));
})

this.messageService.getMessagesByKey(2555).then( () => {
console.log('Ready by ' + (Date.now() - this.DateNow));
})

SQL-запросы

INSERT INTO chats(author, "chatKey", "data", date, files, id, members)
SELECT 1, s.id '"asd"', '"asdasd"', '"[asdfasdf]"', s.id, '[12, 13]'
FROM generate_series(1, 20000000) as s(ID)
ORDER BY random()

Executing (default): INSERT INTO "chats" ("id","members","chatKey","author","date","data","files") VALUES ($1,$2,$3,$4,$5,$6,$7) RETURNING "id","members","chatKey","author","date","data","files";

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" = '100000';

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" = '20000000';

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" LIKE '%2555%';

А теперь самое интересное. Я тестил в два дня, так как создание с индексами заняло больше времени, чем я думал, поэтому я в первом случае проводил 5 тестов и усреднял значения, в в тесте с индексами писал разброс.

creating without index - 11 min 18 sec
adds 100 elements without index - 7803
get 100 000 element without index - 942
get 20 000 000 element without index - 5478
get all element where key === 2555 without index - 1195 - 6141

creating - 2 hr 16 min.
adds 100 elements - 5206 - 58907
get 100 000 element - 3813 - 56000
get 20 000 000 element - 1922 - 7316
get all element where key === 2555 - 2847 - 32458

Почему-то в среднем поиск без индекса быстрее, чем с ним. У меня два вопроса. Первый, что я сделал не так? Второй, стоит ли в этом случае использовать индексы?

Вопрос задан более года назад
431 просмотр

6 комментариев

Подписаться 2 Простой 6 комментариев

mayton2019 @mayton2019

Могу сказать не по постгресу а по Ораклу. Но я думаю что инфа - релевантна. Использование индекса считается эффективным если выборка составляет от 3% до 7% datarows. В разные времена для разных версий эти цифры именялись. Это было справедливо в эпоху HDD.

Очень сильно на эту оценку влияет тип носителя где лежит индекс (SSD). Обычно SSD ведут себя лучше для IOPS.
А индексы - это какраз IOPS.

Очень сильно влияет следующее: достаточно-ли оптимизатору ТОЛЬКО информации из индекса (count) или ему еще надо ДЖОЙНИТЬ индексный элемент с табличным.

Ну и конечно - сбор статистики по таблицам. План. План и еще раз план.

Самый плохой кейс для оптимизатора когда вы танцуете на грани двух типов запросов : OLTP-Analytics. В этом случае у вас гарантийно будут плохие планы и чтобы их стабилизировать надо вбивать гвозди типа "хинтов" или каких-то DBMS-специфичных SQL конструкций кооторые могут например запретить хождение в индекс.

А грань эта может появлятся как-раз из-за объема выборки 100-100k-20mln. Оптимизатор в принципе не может
работать в один план по такой сильно разной природе запроса. Первая цифра - четко тяготеет к точечной выборке (индексы) а последний кейс - требует FTS.

Учитесь анализировать планы SQL. Без этого любая активность в оптимизации - это шаманство и игра в метод тыка.

Написано более года назад
freeExec @freeExec

Ты заполнил таблицы одинаковыми данными?

Написано более года назад
Дмитрий @Compolomus

А где там индекс кроме аи?
Рандом плохо указывается на производительности

Написано более года назад
Евгений Усачев @Eugene_Evgeni Автор вопроса

freeExec, изменил вопрос. Указал не тот запрос для создания. Да, там все поля кроме ключа и id одинаковые.

Написано более года назад
Андрей @VladimirAndreev

А не в типе данных ли причина? Если там ограниченную строку попробовать, а лучше bigint, так как оно по данным на беззнаковое целое похоже?

Написано более года назад
Vitaly Karasik @vitaly_il1

Добавьте пож-ста структуру таблицы - "\d chats" насколько помню.

Написано более года назад

Решения вопроса 2

3 комментария

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- вчера
- 84 просмотра
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- вчера
- 135 просмотров
3

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 53 просмотра
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 90 просмотров
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 133 просмотра
2

ответа
PostgreSQL

Простой
Как взять значение из одной таблицы и прибавить к значению другой таблицы?
- 1 подписчик
- 12 апр.
- 76 просмотров
1

ответ
PostgreSQL

Простой
Psq восстановление бэкапа, что делаю не так?
- 1 подписчик
- 11 апр.
- 81 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
С чем может быть связана высокая нагрузка на сервер Postgres?
- 2 подписчика
- 11 апр.
- 186 просмотров
1

ответ
Linux

+1 ещё

Средний
Почему большой iowait в cloud vm c postgres?
- 5 подписчиков
- 11 апр.
- 2092 просмотра
4

ответа
Python

+3 ещё

Простой
Как и где захостить телеграм бота с БД на PostgreSQL?
- 1 подписчик
- 10 апр.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Администратор PostgreSQL

Гринатом

До 200 000 ₽

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Помощь с парсингом XML файла яндекс товаров

19 апр. 2024, в 09:46

500 руб./за проект

Обработать массив фотографий

19 апр. 2024, в 08:46

5000 руб./за проект

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Ты заполнил таблицы одинаковыми данными?
А где там индекс кроме аи?
Рандом плохо указывается на производительности
freeExec, изменил вопрос. Указал не тот запрос для создания. Да, там все поля кроме ключа и id одинаковые.
А не в типе данных ли причина? Если там ограниченную строку попробовать, а лучше bigint, так как оно по данным на беззнаковое целое похоже?
Добавьте пож-ста структуру таблицы - "\d chats" насколько помню.

Answer 1 · 2022-11-24 16:50:35

Сделайте explain analyze и посмотрите. Опционально запихайте на
https://explain.tensor.ru/

Скорее всего дело в том, что "MessageTable"."chatKey" LIKE '%2555%' в принципе не может использовать индексы (по своей природе), а операций чтения нужно намного больше. Ну и записи при вставке.

Кстати, иногда эффективнее удалить индексы, вставить данные, добавить индексы, но это не всегда возможно. Да и не всегда эффективнее кроме, разве что, случая обновления бОльшей части таблицы, нужно проверять.

Answer 2 · 2022-11-24 21:18:17

Я не знаю, в чём была проблема, но она решилась пересозданием БД без индекса, а потом индексированием её. Спасибо, Антон Антон .

Почему поиск без индекса быстрее поиска с индексом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт