Что такое кластерный индекс в mysql?

Question

MikhailTv @MikhailTv

MySQL

Что такое кластерный индекс в mysql?

Изучаю вопрос различия между кластерным и некластерным индексом и не могу понять, что такое кластерный индекс в mysql innoDB? Выглядит так, как будто это просто физическая сортировка данных по индексируемому полю. Можете максимально понятно объяснить, что такое кластерный индекс? Создаётся ли отдельная таблица или просто упорядочивается хранение существующих данных? Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Вопрос задан более двух лет назад
1345 просмотров

3 комментария

Подписаться 6 Простой 3 комментария

Василий Банников @vabka

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Потому что без order by возвращается не в отсортированном порядке, а в том, в каком удобнее читать.

А физически на диске данные вполне могут лежать не по порядку.
В каком - зависит от конкретного движка.
Innodb и myisan вроде по разному кладут

Написано более двух лет назад
MikhailTv @MikhailTv Автор вопроса

Василий Банников, речь об inno DB.

А по поводу остальных вопросов можете подсказать? Вообще описать, как этот кластерный индекс работает?

Написано более двух лет назад
Василий Банников @vabka

MikhailTv, там уже дали хороший ответ)

А в деталях сам не расскажу, тк слишком далёк от мускула

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

MikhailTv @MikhailTv Автор вопроса

Уже читал эту статью. Всё равно вопросы остаются. Например, вот этот скрин:

Являются ли синие страницы, с индексами, отдельной таблицей или это часть самой таблицы t1? И серые страницы - это страницы непосредственно часть t1 или просто дублированные данные, которые хранятся в месте с индексом?

Написано более двух лет назад
Rsa97 @Rsa97

MikhailTv, Тогда читайте официальную документацию.
https://dev.mysql.com/doc/refman/8.3/en/innodb-arc...
https://dev.mysql.com/doc/refman/8.3/en/innodb-ind...
В зависимости от параметра innodb_file_per_table каждая таблица с её индексами может храниться в отдельном файле или же все данные собираются в один файл. Отдельных файлов для индексов не создаётся, они используют ту же страничную организацию в файле, что и данные самой таблицы.
Голубым цветом показаны страницы, используемые для размещения индекса, серым - страницы с данными таблицы.

Написано более двух лет назад
psiklop @psiklop

Прочитал, ничего не понял, написано кластерный индекс ссылается на данные которые хранятся "кучкой" не фрагментировано.

И в конце статьи написано:

Если в таблице задан PRIMARY KEY — это он
Иначе, если в таблице есть UNIQUE (уникальные) индексы — это первый из них

Так какая польза от уникального кластерного индекса, когда он и так ссылается на единственную строку с данными?

Написано более двух лет назад
Rsa97 @Rsa97

psiklop, Пройдя по индексным записям B-tree мы получаем не конкретную строку, а страницу, в которой находится строка (кластер). Внутри страницы строки упорядочены по первичному индексу, что позволяет использовать двоичный поиск.

Написано более двух лет назад
psiklop @psiklop

Rsa97, ясно. А все-таки имеет смысл переназначить кластерный индекс и как? В статье ничего про это нет, получается, что mysql использует primary key и сам всем управляет и статья чисто познавательная.

Написано более двух лет назад
Rsa97 @Rsa97

psiklop, За исключением innodb_fill_factor каких-то способов повлиять на работу индекса нет.
Из полезного, что можно найти в документации:
- кластерный индекс создаётся всегда, по первичному ключу, первому созданному уникальному ключу или по скрытому полю со служебным ID строки;
- при разделении страниц полученные две страницы заполнены на 1/2, то есть объём файла может в два раза превышать объём хранимых данных;
- вторичные индексы ссылаются не напрямую на данные, а содержат копию данных первичного индекса, так что чем длиннее запись первичного индекса, тем больше места занимают вторичные индексы.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 132 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 111 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 365 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 248 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Потому что без order by возвращается не в отсортированном порядке, а в том, в каком удобнее читать.

А физически на диске данные вполне могут лежать не по порядку.
В каком - зависит от конкретного движка.
Innodb и myisan вроде по разному кладут
Василий Банников, речь об inno DB.

А по поводу остальных вопросов можете подсказать? Вообще описать, как этот кластерный индекс работает?
MikhailTv, там уже дали хороший ответ)

А в деталях сам не расскажу, тк слишком далёк от мускула

Answer 1 · 2024-03-28 08:29:08

Кластерный индекс... это на самом деле понятие крайне виртуальное.

Что такое обычный некластерный индекс? берём выражение индекса, считаем его значение для каждой записи, сортируем и пишем на диск. Получаем отдельную структуру, в которой выражение индекса сортировано. Когда потребуется искать заданное значение этого выражения, мы вместо просмотра от записи к записи сразу половинным делением быстренько найдём нужное значение, возьмём из него уникальный идентификатор записи, и обратимся за записью. Если в таблице 1000 записей, то для поиска заданного значения без индекса нам в среднем пришлось бы просмотреть 500 записей, а с индексом - всего 10.

Теперь что такое кластерный индекс... сначала почти то же. Берём выражение индекса, считаем его значение для каждой записи, сортируем и... а вот теперь не записываем по порядку эти значения с номерами соответствующих записей в отдельную структуру, а сами записи располагаем в этом порядке. Теперь, когда потребуется искать заданное значение этого выражения, мы вместо просмотра от записи к записи, как это было, когда записи не сортированы, сразу половинным делением быстренько найдём нужное значение. Но нам уже не надо получать номер записи и обращаться за ней - мы нашли саму нужную запись.

В MySQL (точнее, в используемом по умолчанию движке InnoDB) первичный индекс, во-первых, существует ВСЕГДА, во-вторых, определяется так (в статье, на которую дали ссылку, имеются неточности в пункте 2):

Если первичный ключ задан явно, то его выражение является также и выражением кластерного индекса. Или иначе - первичный ключ и есть кластерный индекс.
Если первичный ключ явно не задан, но в таблице имеется индекс, отвечающий всем следующим требованиям:
- является уникальным
- не является функциональным, в т.ч. не использует в выражении вычисляемые поля
- не использует в выражении поля, которые определены как допускающие значение NULL
то именно такой индекс используется в качестве первичного. А если таких индексов несколько, то используется первый по тексту запроса на создание таблицы
Если не имеется ни того, ни другого - генерируется синтетический скрытый 6-байтовый номер записи, который и используется как первичный ключ. Следует отметить, что штатных способов доступа к этому значению не существует.

Выглядит так, как будто это просто физическая сортировка данных по индексируемому полю.

Фактически - именно так.

Создаётся ли отдельная таблица или просто упорядочивается хранение существующих данных?

Не создаётся. Но при изменении первичного индекса таблица полностью пересоздаётся с новым физическим порядком записей.

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Если не задан явно ORDER BY, сервер имеет право вернуть записи в любом порядке, как ему удобнее. В большинстве случаев, но не всегда, он будет возвращать записи в порядке чтения с диска...

Представь такой (на самом деле невозможный, но не суть) случай - ты запросил таблицу. Вторая половина её ещё лежит в кэше, а первая уже выдавлена оттуда данными другой таблицы, нужными для выполнения запроса. Конечно, наиболее оптимальным будет начать передачу данных клиенту с этих записей, а пока они передаются, подчитать остальные, и передать их позже. Вот тебе порядок-то и поломался...

===

PS. Кстати, правило выбора индекса, который будет использоваться в качестве кластерного, имеет неприятный побочный эффект. Если у некоторых полей, входящих в какие-то индексы, изменяется свойство NULLability, то это может привести к изменению того, какой из имеющихся индексов станет использоваться в качестве первичного по пункту 2. В результате мы получим невозможность использования INSTANT / INPLACE методов, и будет использован длинный COPY. Впрочем, ситуация такая крайне редка.

Answer 2 · 2024-03-27 23:21:21

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

https://habr.com/ru/articles/141767/

Ответ написан более двух лет назад

6 комментариев

Что такое кластерный индекс в mysql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт