Почему поиск без индекса быстрее поиска с индексом?

Question

Евгений Усачев @Eugene_Evgeni

Почему поиск без индекса быстрее поиска с индексом?

Очень странная ситуация.
Я решил "поиграть" с базой данных и создал БД с 20 000 000 записей и провёл пару тестов. По идеи, запись с индексом должна быть дольше, а поиск элементов быстрее. Тесты были такие:

Вопросы тестирования

заполнение БД;
добавление 100 элементов;
получение 100 000 элемента;
получение 20 000 000 элемента;
получение элементов в котором встречается число 2555;

Сейчас я приведу пример своего кода на nest js, но он лишь обёртка, так что под ним я ещё и запишу команды ( SQL-запросы). Так же я в обоих случаях заполнял БД одинаково без nestjs ( смотрите в SQL-запросах). Тесты в обоих случаях одинаковые, сравниваю по индексу key ( само поле chatKey ).

Вот код на nestjs:

spoiler

модель

@Table({tableName: 'chats', createdAt: false, updatedAt: false})
export class MessageTable extends Model {

@Column({type: DataType.INTEGER, primaryKey: true, unique: true, autoIncrement: true})
id: number;

@Column({type: DataType.JSON})
members: number[];

@Index('key')
@Column({type: DataType.TEXT})
chatKey: string;

@Column({type: DataType.INTEGER})
author: number;

@Column({type: DataType.STRING(32)})
date: string;

@Column({type: DataType.STRING(255)})
data: string;

@Column({type: DataType.STRING(511)})
files: string;

}

тесты

addMessage = (number: number) => {
return new Promise( (res) => {
this.ChatRepository.create({
id: 20000000 + number,
author: number,
date: 'asd',
chatKey: (20000000 + number).toString(),
data: 'das',
files: '[]',
members: [1]
}).then( () => {return res('das')});
})
}

getMessageByKey = (number) => {
return new Promise( (res) => {
this.ChatRepository.findAll({where: {chatKey: number.toString()} } )
.then( (response) => res(response))
})
}

getMessagesByKey = (number) => {
return new Promise( (res) => {
this.ChatRepository.findAll({where: {
chatKey: {
[Op.like]: `%${number.toString()}%`
}
} } )
.then( (response) => res(response))
})
}
for (let indexx = 0; indexx < 100; indexx++) {
this.messageService.addMessage(indexx + 3)
.then( () => {if (indexx === 99) {
console.log('Ready by ' + (Date.now() - this.DateNow) );
} })
}
this.messageService.getMessageByKey(100000).then( (res) => {
console.log(res);
console.log('Ready by ' + (Date.now() - this.DateNow));
})

this.messageService.getMessageByKey(20000000).then( (res) => {
console.log(res);
console.log('Ready by ' + (Date.now() - this.DateNow));
})

this.messageService.getMessagesByKey(2555).then( () => {
console.log('Ready by ' + (Date.now() - this.DateNow));
})

SQL-запросы

INSERT INTO chats(author, "chatKey", "data", date, files, id, members)
SELECT 1, s.id '"asd"', '"asdasd"', '"[asdfasdf]"', s.id, '[12, 13]'
FROM generate_series(1, 20000000) as s(ID)
ORDER BY random()

Executing (default): INSERT INTO "chats" ("id","members","chatKey","author","date","data","files") VALUES ($1,$2,$3,$4,$5,$6,$7) RETURNING "id","members","chatKey","author","date","data","files";

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" = '100000';

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" = '20000000';

Executing (default): SELECT "id", "members", "chatKey", "author", "date", "data", "files" FROM "chats" AS "MessageTable" WHERE "MessageTable"."chatKey" LIKE '%2555%';

А теперь самое интересное. Я тестил в два дня, так как создание с индексами заняло больше времени, чем я думал, поэтому я в первом случае проводил 5 тестов и усреднял значения, в в тесте с индексами писал разброс.

creating without index - 11 min 18 sec
adds 100 elements without index - 7803
get 100 000 element without index - 942
get 20 000 000 element without index - 5478
get all element where key === 2555 without index - 1195 - 6141

creating - 2 hr 16 min.
adds 100 elements - 5206 - 58907
get 100 000 element - 3813 - 56000
get 20 000 000 element - 1922 - 7316
get all element where key === 2555 - 2847 - 32458

Почему-то в среднем поиск без индекса быстрее, чем с ним. У меня два вопроса. Первый, что я сделал не так? Второй, стоит ли в этом случае использовать индексы?

Вопрос задан более трёх лет назад
554 просмотра

6 комментариев

Подписаться 2 Простой 6 комментариев

mayton2019 @mayton2019

Могу сказать не по постгресу а по Ораклу. Но я думаю что инфа - релевантна. Использование индекса считается эффективным если выборка составляет от 3% до 7% datarows. В разные времена для разных версий эти цифры именялись. Это было справедливо в эпоху HDD.

Очень сильно на эту оценку влияет тип носителя где лежит индекс (SSD). Обычно SSD ведут себя лучше для IOPS.
А индексы - это какраз IOPS.

Очень сильно влияет следующее: достаточно-ли оптимизатору ТОЛЬКО информации из индекса (count) или ему еще надо ДЖОЙНИТЬ индексный элемент с табличным.

Ну и конечно - сбор статистики по таблицам. План. План и еще раз план.

Самый плохой кейс для оптимизатора когда вы танцуете на грани двух типов запросов : OLTP-Analytics. В этом случае у вас гарантийно будут плохие планы и чтобы их стабилизировать надо вбивать гвозди типа "хинтов" или каких-то DBMS-специфичных SQL конструкций кооторые могут например запретить хождение в индекс.

А грань эта может появлятся как-раз из-за объема выборки 100-100k-20mln. Оптимизатор в принципе не может
работать в один план по такой сильно разной природе запроса. Первая цифра - четко тяготеет к точечной выборке (индексы) а последний кейс - требует FTS.

Учитесь анализировать планы SQL. Без этого любая активность в оптимизации - это шаманство и игра в метод тыка.

Написано более трёх лет назад
freeExec @freeExec

Ты заполнил таблицы одинаковыми данными?

Написано более трёх лет назад
Дмитрий @Compolomus

А где там индекс кроме аи?
Рандом плохо указывается на производительности

Написано более трёх лет назад
Евгений Усачев @Eugene_Evgeni Автор вопроса

freeExec, изменил вопрос. Указал не тот запрос для создания. Да, там все поля кроме ключа и id одинаковые.

Написано более трёх лет назад
Андрей @VladimirAndreev

А не в типе данных ли причина? Если там ограниченную строку попробовать, а лучше bigint, так как оно по данным на беззнаковое целое похоже?

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

Добавьте пож-ста структуру таблицы - "\d chats" насколько помню.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 2

3 комментария

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 101 просмотр
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 311 просмотров
3

ответа
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 355 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 172 просмотра
2

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 298 просмотров
3

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 337 просмотров
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 174 просмотра
2

ответа
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 353 просмотра
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 807 просмотров
2

ответа
Показать ещё Загружается…

Ты заполнил таблицы одинаковыми данными?
А где там индекс кроме аи?
Рандом плохо указывается на производительности
freeExec, изменил вопрос. Указал не тот запрос для создания. Да, там все поля кроме ключа и id одинаковые.
А не в типе данных ли причина? Если там ограниченную строку попробовать, а лучше bigint, так как оно по данным на беззнаковое целое похоже?
Добавьте пож-ста структуру таблицы - "\d chats" насколько помню.

Answer 1 · 2022-11-24 16:50:35

Сделайте explain analyze и посмотрите. Опционально запихайте на
https://explain.tensor.ru/

Скорее всего дело в том, что "MessageTable"."chatKey" LIKE '%2555%' в принципе не может использовать индексы (по своей природе), а операций чтения нужно намного больше. Ну и записи при вставке.

Кстати, иногда эффективнее удалить индексы, вставить данные, добавить индексы, но это не всегда возможно. Да и не всегда эффективнее кроме, разве что, случая обновления бОльшей части таблицы, нужно проверять.

Answer 2 · 2022-11-24 21:18:17

Я не знаю, в чём была проблема, но она решилась пересозданием БД без индекса, а потом индексированием её. Спасибо, Антон Антон .

Почему поиск без индекса быстрее поиска с индексом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт