Как правильно сделать индексацию базы mysql?

Question

Soho @focuspro

MySQL

Как правильно сделать индексацию базы mysql?

Есть таблица с 1млн строк, каждый день добавляется 30 тысяч строк, не сразу пачкой, а по очереди

по такому запросу нужно делать выборку

SELECT * FROM car WHERE url='328382164-audi-a4-2012-blue-WВA2UAF48H38K007347'

Запрос составляет 3.2 сек

Добавил индекс и сразу запрос отрабатывает за 4ms

Подскажите при добавлении 30к записей каждый день, будет ли переиндексироваться вся таблица? что повлияет на производительность, используется на таких объёмах индексация? или только негативно отразится

Либо есть вариант вставлять car_id в id строку c primary key и уже по нему искать, исключив индексацию

Вопрос задан более трёх лет назад
593 просмотра

2 комментария

Подписаться 2 Простой 2 комментария

shurshur @shurshur

Индекс работает в реальном времени, чуть дороже становится вставка, так как кроме собственно вставки строки в таблицу, нужно будет ссылку на эту строку во все задействованные индексы. Чаще всего этим небольшим утяжелением вставки можно пренебречь. Если база на вставке до этого не съедала все ресурсы, то вряд ли она потратит свободный их запас на обновление индексов.

30к записей в день - это в среднем 1 запись в три секунды. Это вообще не нагрузка. Если вам там не надо вставлять эти 30 тыс. разовой операцией за 0.01 секунды, то вообще не должно быть никаких проблем. Но я бы обратил внимание, что это почти 1 млн в месяц, так что за год таблица вырастет в 12 раз, и к этому надо заранее готовиться (иметь достаточно места).

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

Либо есть вариант вставлять car_id в id строку c primary key и уже по нему искать, исключив индексацию
Тут не совсем понятно что имеется в виду, но если речь про связь через первичный ключ, то да - такой индекс будет работать быстрее и есть меньше памяти. В остальном тут уже дали достаточно точные ответы.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 317 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 221 просмотр
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 447 просмотров
4

ответа
Показать ещё Загружается…

Индекс работает в реальном времени, чуть дороже становится вставка, так как кроме собственно вставки строки в таблицу, нужно будет ссылку на эту строку во все задействованные индексы. Чаще всего этим небольшим утяжелением вставки можно пренебречь. Если база на вставке до этого не съедала все ресурсы, то вряд ли она потратит свободный их запас на обновление индексов.

30к записей в день - это в среднем 1 запись в три секунды. Это вообще не нагрузка. Если вам там не надо вставлять эти 30 тыс. разовой операцией за 0.01 секунды, то вообще не должно быть никаких проблем. Но я бы обратил внимание, что это почти 1 млн в месяц, так что за год таблица вырастет в 12 раз, и к этому надо заранее готовиться (иметь достаточно места).
Либо есть вариант вставлять car_id в id строку c primary key и уже по нему искать, исключив индексацию
Тут не совсем понятно что имеется в виду, но если речь про связь через первичный ключ, то да - такой индекс будет работать быстрее и есть меньше памяти. В остальном тут уже дали достаточно точные ответы.

Answer 1 · 2022-05-17 05:00:41

При вставке записей в таблицу будет обновляться индекс - в него будет добавляться информация о новой записи. "Вся таблица" переиндексироваться не будет.
Индексация именно для таких объемов и предназначена. Таблицу в 1000 строк СУБД без проблем пережевывает фуллсканом и никто этого не замечает. Это, кстати, типичный сценарий - все работает нормально и без индексов, но с некоторого объема данных начинает стремительно тормозить и чем дальше, тем хуже. Вероятно именно это у вас и произошло.
Наличие индекса делает модификацию таблицы (вставки, обновления, удаления) чуть дороже т.к. нужно обновить содержимое и индексов тоже. Но пока у вас не десятки индексов и не сотни вставок в секунду - вряд ли эта проблема окажет существенное влияние.
PRIMARY KEY - по сути тот же индекс, только в нем чуть больше ограничений (всегда уникальный и поля в него входящие всегда NOT NULL). Если у вас поле url действительно однозначно идентифицирует запись - можно построить PRIMARY KEY по нему. Но вообще иметь первичный ключ по одному полю и набор индексов (в том числе уникальных) по другим полям - более чем нормально.

Answer 2 · 2022-05-17 06:23:00

Конечно, нагрузка на обновление индекса растет с ростом базы, но очень медленно, там в худшем случае логарифм будет от общего количества записей или даже константа, в зависимости от выбранного типа индекса, время поиска записи по индексу тоже логарифм
Худшая операция для базы - удаление записей... и та все равно так же будет сравнима с логарифмом.

p.s. 30к записей в сутки это очень мало, с этим справится любое железо, проблемы начинаются, когда у тебя тысячи записей в секунду и миллиарды в базе.

Answer 3 · 2022-05-17 13:56:02

В этой задаче всё нормально и никаких видимых проблем нету. Обычно индекс работает синхронно с обновлением основной таблицы (кроме редких типов индексов основанных на текстовом поиске).

Единственное что здесь избыточно так это сам ключ.
'328382164-audi-a4-2012-blue-WВA2UAF48H38K007347'
его копия будет лежать и в таблице и в индексе. Я-бы поискал какие-то закономерности.
Если вся таблица созавалась под audi - то стоит-ли держать еще признак рядом?

Если бы база была класса Oracle и ключ - композитный то я-бы разбил его на два-три подключа
и использовал-бы compressed index. Тогда марки машин можно было сжать и уменьшить объем индекса.

Как правильно сделать индексацию базы mysql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт