Что такое кластерный индекс в mysql?

Question

MikhailTv @MikhailTv

MySQL

Что такое кластерный индекс в mysql?

Изучаю вопрос различия между кластерным и некластерным индексом и не могу понять, что такое кластерный индекс в mysql innoDB? Выглядит так, как будто это просто физическая сортировка данных по индексируемому полю. Можете максимально понятно объяснить, что такое кластерный индекс? Создаётся ли отдельная таблица или просто упорядочивается хранение существующих данных? Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Вопрос задан 27 мар.
1261 просмотр

3 комментария

Подписаться 5 Простой 3 комментария

Василий Банников @vabka

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Потому что без order by возвращается не в отсортированном порядке, а в том, в каком удобнее читать.

А физически на диске данные вполне могут лежать не по порядку.
В каком - зависит от конкретного движка.
Innodb и myisan вроде по разному кладут

Написано 27 мар.
MikhailTv @MikhailTv Автор вопроса

Василий Банников, речь об inno DB.

А по поводу остальных вопросов можете подсказать? Вообще описать, как этот кластерный индекс работает?

Написано 27 мар.
Василий Банников @vabka

MikhailTv, там уже дали хороший ответ)

А в деталях сам не расскажу, тк слишком далёк от мускула

Написано 28 мар.

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

MikhailTv @MikhailTv Автор вопроса

Уже читал эту статью. Всё равно вопросы остаются. Например, вот этот скрин:

Являются ли синие страницы, с индексами, отдельной таблицей или это часть самой таблицы t1? И серые страницы - это страницы непосредственно часть t1 или просто дублированные данные, которые хранятся в месте с индексом?

Написано 27 мар.
Rsa97 @Rsa97

MikhailTv, Тогда читайте официальную документацию.
https://dev.mysql.com/doc/refman/8.3/en/innodb-arc...
https://dev.mysql.com/doc/refman/8.3/en/innodb-ind...
В зависимости от параметра innodb_file_per_table каждая таблица с её индексами может храниться в отдельном файле или же все данные собираются в один файл. Отдельных файлов для индексов не создаётся, они используют ту же страничную организацию в файле, что и данные самой таблицы.
Голубым цветом показаны страницы, используемые для размещения индекса, серым - страницы с данными таблицы.

Написано 27 мар.
psiklop @psiklop

Прочитал, ничего не понял, написано кластерный индекс ссылается на данные которые хранятся "кучкой" не фрагментировано.

И в конце статьи написано:

Если в таблице задан PRIMARY KEY — это он
Иначе, если в таблице есть UNIQUE (уникальные) индексы — это первый из них

Так какая польза от уникального кластерного индекса, когда он и так ссылается на единственную строку с данными?

Написано 28 мар.
Rsa97 @Rsa97

psiklop, Пройдя по индексным записям B-tree мы получаем не конкретную строку, а страницу, в которой находится строка (кластер). Внутри страницы строки упорядочены по первичному индексу, что позволяет использовать двоичный поиск.

Написано 28 мар.
psiklop @psiklop

Rsa97, ясно. А все-таки имеет смысл переназначить кластерный индекс и как? В статье ничего про это нет, получается, что mysql использует primary key и сам всем управляет и статья чисто познавательная.

Написано 28 мар.
Rsa97 @Rsa97

psiklop, За исключением innodb_fill_factor каких-то способов повлиять на работу индекса нет.
Из полезного, что можно найти в документации:
- кластерный индекс создаётся всегда, по первичному ключу, первому созданному уникальному ключу или по скрытому полю со служебным ID строки;
- при разделении страниц полученные две страницы заполнены на 1/2, то есть объём файла может в два раза превышать объём хранимых данных;
- вторичные индексы ссылаются не напрямую на данные, а содержат копию данных первичного индекса, так что чем длиннее запись первичного индекса, тем больше места занимают вторичные индексы.

Написано 28 мар.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

MySQL

+1 ещё

Средний
Как исправить — mariadb не запускается после зменения расположения датафайлов?
- 1 подписчик
- 17 часов назад
- 38 просмотров
0

ответов
MySQL

Простой
Как составить запрос для поиска в бд mysql?
- 1 подписчик
- 20 часов назад
- 67 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как извлечь топ 15 очков из таблицы чтобы игроки не дублировались?
- 1 подписчик
- 22 апр.
- 122 просмотра
1

ответ
MySQL

Простой
Как сохранить mysql базу?
- 1 подписчик
- 21 апр.
- 94 просмотра
1

ответ
PHP

+1 ещё

Простой
Как исправить ошибку Uncaught Error: Call to undefined function mysql_real_escape_string?
- 1 подписчик
- 21 апр.
- 105 просмотров
3

ответа
PHP

+2 ещё

Средний
Ошибка при регистрации PHP, в Unity, что делать?
- 1 подписчик
- 20 апр.
- 100 просмотров
1

ответ
MySQL

Простой
Объясните CASE WHEN THEN?
- 1 подписчик
- 20 апр.
- 108 просмотров
2

ответа
MySQL

Простой
Как обновить определенные значения в базе, в зависимости от значения переменной?
- 1 подписчик
- 20 апр.
- 42 просмотра
1

ответ
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 18 апр.
- 57 просмотров
2

ответа
MySQL

+1 ещё

Средний
Как восстановить базу данных mysql, если служба mysql не запускается на windows?
- 1 подписчик
- 18 апр.
- 115 просмотров
1

ответ
Показать ещё Загружается…

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Инженер технической поддержки с английским языком и знанием PHP/MySQL

IT-Aces

от 100 000 до 150 000 ₽

Второй ведущий разработчик (Fullstack, PHP, Laravel, Vue, Mysql)

Donatov.net

от 100 000 до 300 000 ₽

Доработать парсер на питоне селениум

09 апр. 2024, в 14:34

10000 руб./за проект

Быстро и срочно разработать WhatsApp бота

27 апр. 2024, в 14:29

3500 руб./за проект

Необходимо код на Python для редактирования товаров ВКонтакте

27 апр. 2024, в 14:27

1000 руб./за проект

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Потому что без order by возвращается не в отсортированном порядке, а в том, в каком удобнее читать.

А физически на диске данные вполне могут лежать не по порядку.
В каком - зависит от конкретного движка.
Innodb и myisan вроде по разному кладут
Василий Банников, речь об inno DB.

А по поводу остальных вопросов можете подсказать? Вообще описать, как этот кластерный индекс работает?
MikhailTv, там уже дали хороший ответ)

А в деталях сам не расскажу, тк слишком далёк от мускула

Answer 1 · 2024-03-28 08:29:08

Кластерный индекс... это на самом деле понятие крайне виртуальное.

Что такое обычный некластерный индекс? берём выражение индекса, считаем его значение для каждой записи, сортируем и пишем на диск. Получаем отдельную структуру, в которой выражение индекса сортировано. Когда потребуется искать заданное значение этого выражения, мы вместо просмотра от записи к записи сразу половинным делением быстренько найдём нужное значение, возьмём из него уникальный идентификатор записи, и обратимся за записью. Если в таблице 1000 записей, то для поиска заданного значения без индекса нам в среднем пришлось бы просмотреть 500 записей, а с индексом - всего 10.

Теперь что такое кластерный индекс... сначала почти то же. Берём выражение индекса, считаем его значение для каждой записи, сортируем и... а вот теперь не записываем по порядку эти значения с номерами соответствующих записей в отдельную структуру, а сами записи располагаем в этом порядке. Теперь, когда потребуется искать заданное значение этого выражения, мы вместо просмотра от записи к записи, как это было, когда записи не сортированы, сразу половинным делением быстренько найдём нужное значение. Но нам уже не надо получать номер записи и обращаться за ней - мы нашли саму нужную запись.

В MySQL (точнее, в используемом по умолчанию движке InnoDB) первичный индекс, во-первых, существует ВСЕГДА, во-вторых, определяется так (в статье, на которую дали ссылку, имеются неточности в пункте 2):

Если первичный ключ задан явно, то его выражение является также и выражением кластерного индекса. Или иначе - первичный ключ и есть кластерный индекс.
Если первичный ключ явно не задан, но в таблице имеется индекс, отвечающий всем следующим требованиям:
- является уникальным
- не является функциональным, в т.ч. не использует в выражении вычисляемые поля
- не использует в выражении поля, которые определены как допускающие значение NULL
то именно такой индекс используется в качестве первичного. А если таких индексов несколько, то используется первый по тексту запроса на создание таблицы
Если не имеется ни того, ни другого - генерируется синтетический скрытый 6-байтовый номер записи, который и используется как первичный ключ. Следует отметить, что штатных способов доступа к этому значению не существует.

Выглядит так, как будто это просто физическая сортировка данных по индексируемому полю.

Фактически - именно так.

Создаётся ли отдельная таблица или просто упорядочивается хранение существующих данных?

Не создаётся. Но при изменении первичного индекса таблица полностью пересоздаётся с новым физическим порядком записей.

Если данные упорядочиваются этим индексом, допустим по ID, то почему при select без сортировки данные могут возвращаться в произвольном порядке, а не отсортированные по ID по-умолчанию?

Если не задан явно ORDER BY, сервер имеет право вернуть записи в любом порядке, как ему удобнее. В большинстве случаев, но не всегда, он будет возвращать записи в порядке чтения с диска...

Представь такой (на самом деле невозможный, но не суть) случай - ты запросил таблицу. Вторая половина её ещё лежит в кэше, а первая уже выдавлена оттуда данными другой таблицы, нужными для выполнения запроса. Конечно, наиболее оптимальным будет начать передачу данных клиенту с этих записей, а пока они передаются, подчитать остальные, и передать их позже. Вот тебе порядок-то и поломался...

===

PS. Кстати, правило выбора индекса, который будет использоваться в качестве кластерного, имеет неприятный побочный эффект. Если у некоторых полей, входящих в какие-то индексы, изменяется свойство NULLability, то это может привести к изменению того, какой из имеющихся индексов станет использоваться в качестве первичного по пункту 2. В результате мы получим невозможность использования INSTANT / INPLACE методов, и будет использован длинный COPY. Впрочем, ситуация такая крайне редка.

Answer 2 · 2024-03-27 23:21:21

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

https://habr.com/ru/articles/141767/

Ответ написан 27 мар.

6 комментариев

Что такое кластерный индекс в mysql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт