Как отсутствие id (int — primary key, auto_increment) поля влияет на скорость работы MySQL?

Question

Spiriiit @Spiriiit

MySQL

Как отсутствие id (int — primary key, auto_increment) поля влияет на скорость работы MySQL?

Всем привет!

Где-то слышал, что в любой таблице лучше использовать поле id (int - primary key, auto_increment), мол иначе эффективность будет намного меньше, даже если будут другие индексы.

Вот я задумался, есть у меня такая таблица:

CREATE TABLE IF NOT EXISTS `img` (
  `id` int(12) NOT NULL AUTO_INCREMENT,
  `md5` varchar(32) NOT NULL,
  `time` timestamp NOT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `md5` (`md5`),
  KEY `time` (`time`)
) ENGINE=InnoDB  DEFAULT CHARSET=cp1251 AUTO_INCREMENT=1 ;

По сути id мне тут вообще не нужен.
Выборка идет по md5 либо, неактуальные записи, дергаю по time.

Вопрос: если убрать id и оставить только md5 и сделать его PRIMARY KEY / UNIQUE KEY, не повлияет ли это на скорость работы когда база разрастется до пару 10кк и нет ли тут ничего страшного?

Вопрос задан более трёх лет назад
1436 просмотров

2 комментария

Подписаться 1 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее
GB (GeekBrains)

Профессия Python-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Spiriiit @Spiriiit Автор вопроса

Melkij, спасибо за подробный ответ.

Нет, таблица это вся. С varchar понял.
А вот с time: вы говорите, что лучше time сделать int и писать туда статично метку времени? Просто так изначально было, но я подумал, что выборка по timestamp будет быстрее или это ошибка?

Написано более трёх лет назад
Melkij @Melkij

ммм, где я такое говорил?
Если сущность - датавремя около настоящего момента - то timestamp подходящий выбор.
А, это где я про сравнения писал? Физически timestamp в mysql занимает 4 байта, как int32 и хранится, поэтому и сравнение двух интов будет.

Написано более трёх лет назад
Spiriiit @Spiriiit Автор вопроса

Melkij: не, это я вашу мысль не правильно понял. Теперь все, пазл собрался, спасибо еще раз!)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 340 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 210 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 226 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 633 просмотра
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 343 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 129 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 467 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 129 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 183 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 205 просмотров
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Программист Embedded Linux, OpenWrt

Ростовский завод электроники • Москва

от 80 000 до 120 000 ₽

Answer 1 · 2016-11-01 11:55:02

Касательно именно mysql/innodb - innodb всегда кластеризован по первичному ключу. Поэтому все вторичные индексы всегда указывают на первичный ключ. Что из этого следует:
select time, md5 from img where md5=?
Потребует просмотра всегда двух индексов. Сначала индекса по md5, потом - первичного ключа.
С первичным ключом по md5 этот запрос сделает один просмотр индекса и для вычитывания time, не входящего в индекс, даже не потребует seek - данные лежат непосредственно рядом с листьями первичного ключа. Т.е. от выкидывания суррогатного ключа этому запросу чистый профит.

Не случайно написал time в запросе, если запросить только select md5 или select md5, id - то это будет index only scan по вторичному ключу и сейчас, без обращения ни к первичному ключу ни к самой таблице.

во-вторых,
int - это 4 байта. varchar32 для cp1251 (почему вообще varchar, а не char(32) или вообще binary(16)?) - 32 байта, timestamp 4 байта. Из-за необходимости ссылаться на куда более объёмный первичный ключ, резко увеличатся в объёме все вторичные индексы. Но вторичный индекс у вас останется только один, да один индекс исчезнет, а уникальный немного похудеет за счёт преобразования в первичный. Не столь огромный оверхед получится, вполне можно пережить. Но может быть не столь интересно, если показана часть таблицы и есть кучка других полей и индексов.
Поиск по time чуток просядет, строки сравнивать всё-таки сложнее пары интов. Но на десятке млн записей, да на mysql значения это играть не будет.

в-третьих, innodb оптимизирован под запись последовательно-возрастающих значений. На записи случайных данных несколько просядет производительность. На сколько именно - надо измерять, не помню.
На небольшой табличке всего-то в пару десятков миллионов строк - это значения иметь не будет.

Answer 2 · 2016-11-01 09:30:05

Принимая во внимание ответ выше, можно протестировать этот вариант на отдельном инстансе - убрать айди, сгенерировать хотя бы миллион строк, и поделать разные часто выполняемые запросы, всё будет понятно. Но проблем не должно быть никаких.
К тому же, если у вас в этой таблице появятся десятки миллионов строк, скорее всего, придется задуматься о партицировании, оптимизации и т.д.

Как отсутствие id (int — primary key, auto_increment) поля влияет на скорость работы MySQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт