Вопрос по индексам MySQL?

Question

Hint @Hint

MySQL

Вопрос по индексам MySQL?

Большая таблица (миллионы записей). Строки — задания на обработку. При добавлении записи флаг «обработан» устанавливается в 0. Потом отдельный сервис обрабатывает записи и меняет флаг на 1. Записи не удаляются, флаг из состояния 1 никогда не переходит в состояние 0. По полю флага установлен индекс. Требуется запоминать время, когда файл был обработан (unix_timestamp в int).

Вопрос, можно ли убрать флаг из таблицы и делать выборку только по времени обработки (processed_time = 0)? Или же индекс по полю флага 0/1 будет работать эффективнее, чем по полю с int?

Вопрос задан более трёх лет назад
4302 просмотра

Комментировать

Подписаться 11 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 9

2 комментария

Комментировать

9 комментариев

Hint @Hint Автор вопроса

Почему? Если со значением 0 у меня около 10 миллионов записей, а со значением 1 около сотни. Мне нужно выбрать эти 100 со значением 1. Индекс будет неэффективен?

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Индексы эффективны на уникальных полях или с ограниченным количеством строк (LIMIT).
У Вас же движок СУБД будет просматривать всю таблицу индексов — выигрыша в скорости практически никакой, но при этом время на изменение индекса практически 2 раза больше.

Написано более трёх лет назад
Hint @Hint Автор вопроса

И не играет роли то, что с одним значением у меня 99.99% записей, а с другим 0.01% (и по нему я буду выбирать)?
В итоге, индекс по processed_time и выборка по нему (processed_time = 0) будет эффективнее (при том, что 99.99% записей будут содержать практически уникальные ненулевые значения, повышая cardinality)?

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Откуда движку знать, что он нашел все 0.01%-х нужных строк? Он тупо просмотрит всю таблицу индексов. По скорости это ничем не отличатся от просмотра таблицы без этого индекса.

Тоже самое и с полем processed_time.

Эффект от использования индексов будет, если Вы ищите конкретные значения или используете LIMIT, точно зная, что «LIMIT <= подходящих_строк».

Написано более трёх лет назад
Hint @Hint Автор вопроса

> Тоже самое и с полем processed_time.
Почему? Поле processed_time имеет столько уникальных значений, сколько строк в таблице. Я ищу по конкретному значению 0.

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Под уникальным полем в SQL подразумевается поля без повторяющихся значений. У Вас же значение 0, как я понимаю, повторяется.

Весь выигрыш от работы индексов сводится, грубо говоря, досрочному окончанию поиска по определённому полю без просмотра всей таблицы индексов. Досрочно оканчивать поиск движок будет, если нашел единственное уникальное значение или группу значений, ограниченных LIMIT.

Написано более трёх лет назад
Hint @Hint Автор вопроса

По-моему вы не правы. Взял таблицу с комментариями. В ней есть поле warn (int) с индексом (на момент теста всего 3 разных значения).

SELECT warn, COUNT(*) FROM `comments` GROUP BY warn

warn COUNT(*)

-1 3792

0 529637

137888 3

SELECT * FROM `comments` WHERE warn = 0

id select_type table type possible_keys key key_len ref rows Extra

1 SIMPLE comments ALL warn NULL NULL NULL 533432 Usingwhere

SELECT * FROM `comments` WHERE warn = 137888

id select_type table type possible_keys key key_len ref rows Extra

1 SIMPLE comments ref warn warn 4 const 3732

Во втором случае был использован индекс.

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

И что ваш пример значит? Что 3 строки выбираются быстрее, чем 529637?

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Самостоятельно провел тестирование. Я оказался не прав.

Результаты моего исследования ниже в комментариях.

Написано более трёх лет назад

2 комментария

Hint @Hint Автор вопроса

Спасибо. А то я уже начал думать, что мое представление об индексах был в корне неверным.
В итоге, использование processed_time с возможным значением NULL и поиск по IS NULL — лучшее решение?

Написано более трёх лет назад
Григорий Перетяка @Peretyaka

Сложно сказать что лучшее. Есть ли выборки по полю с unix_timestamp, насколько часты вставки/апдейты по отношению к селекстам, другие нюансы? Я отписался только потому, что там товарищ слишком уверенно не совсем правильную информацию давал. А так сходу сказать как лучше — это пальцем в небо.

Я бы, наверное, сделал с NULL, потому, что так лаконичнее выглядит и вполне производительное решение, на небольших таблица, вроде вашей, вряд ли будет тормозить. Но если бы было так как у вас сейчас, то не переделывал бы. Текущий вариант вполне жизнеспособен и, возможно, даже правильнее.

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 130 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 105 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 246 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 215 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 317 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 222 просмотра
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 450 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2012-03-01 13:17:31

Наверное в случае такого количества данных я бы сделал отдельную таблицу (архив) куда бросал все обработанные записи, если они никогда не станут 0, смысл на них тратить время. И не нужны никакие индексы вообще.

Answer 2 · 2012-03-01 14:39:56

Тут сложно сказать однозначно, есть разные взаимокомпенсирующие эффекты.
С одной стороны, можно избавиться от ненужного больше поля с флагом — это плюс, с другой — придется добавить индекс по полю с таймстампом, которое занимает уже не один байт, как предыдущее — это минус (индекс будет большое занимать памяти). Сами индексы будут работать одинаково эффективно для указаной выборки.

Я бы на Вашем месте создал бы тестовую табличку и сделал бы бенчмарк, заодно по результатам можно и статью на хабр отписать, многим было бы интересно.

Также нетривиален вопрос выбора движка хранения, у innodb будет очень заметным оверхед по месту для хидеров строк, если структура таблицы очень простая и размер строки небольшой.

Надо тестить, в общем…

Answer 3 · 2012-03-01 13:04:38

Виталий Желтяков @VitaZheltyakov

Индекс по полю с двумя значениями неэффективен изначально.

Ответ написан более трёх лет назад

9 комментариев

Answer 4 · 2012-03-01 14:28:18

Тут есть мнения с которыми я не совсем согласен. Давайте, разберем что такое индекс в упрощенной форме.

Если индекс на поле не установлен, то он проходит по всем записям и сравнивает, если флаг = 1, то выбрать запись. При миллионе записей будет миллион таких сравнений.

Если вы поставите индекс, то он сократит список до уникальных значений и он будет следующего вида:
0 — строки, где запись равна 0
1 — строки, где запись равна 1

То есть, сравнений будет всего 2.

Если вы объедините поля, то в индексе получится 999 900 уникальных временных значений и одно — 0, соответствующие 100 записям то есть будет 999 901 сравнение.

(если поле вообще уникальное, то выигрыш в том, что он остановит поиск после первого найденного элемента)

(это далеко не все, в чем заключается работа индексов, к тому же есть разные типы, нюансы)

Насколько вообще существенно сравнение интежеров даже помноженное на миллион я не берусь судить, как и об увеличении обращений к жесткому диску. Но это будет однозначно дольше, вопрос только насколько, тут уже надо тестировать.

Другая ситуация с NULL. IS NULL — всегда будет работать без сравнения вообще. Тут я бы так и сделал.

Answer 5 · 2012-03-01 15:21:50

Я бы для оптимизации этой таблички сделал разбивку на PARTITIONS
либо по датам,

CREATE TABLE demo (col1 INT, tasks VARCHAR(255), col3 DATE)

 PARTITION BY KEY(col3)

 PARTITIONS 4;

либо по полю обработки

PARTITION BY LIST (id) (

 PARTITION r0 VALUES IN (0),

 PARTITION r1 VALUES IN (1),

Индекс по 0/1 быстрый, поскольку нужные вам записи хранятся первыми же в HASH (а я искренне надеюсь, что вы сделали HASH индекс, а не BTREE)

Answer 6 · 2012-03-02 10:42:20

Провел тестирование:
— таблица с 1 000 000 строк, движок innobd;
— Структура полей id, flag (TINYINT), time(timestamp), data(char);
— У поля flag два возможных значения;
— 10 строк имеют отличное от всех значение поля flag;
— Кэширование запросов отключено.

Итог:
— Индексы действительно помогают отсеивать результаты даже, если значений мало. У меня получалось без индексов среднее время 1,89 сек., а с индексами — 0,015 сек.
— Использование NULL в качестве одного из значений дало прирост скорости 0,005 сек. на миллион записей без индексов, с индексами прирос слишком мал.

Answer 7 · 2012-03-01 16:01:07

Мне кажется будет эффективен следующий вариант (если не ошибаюсь, подобное решение в тасках симфони):
не использовать ни флаг ни время для выборки, а просто вторым, обрабатывающим сервисом «запоминать» последний успешно обработанный идентификатор, а выборку делать
where ID > @yourLastCalcedID

Это будет наиболее эффективно, естественно, если обработка сервисом протекает последовательно, линейно ID за ID, без пропусков и ветвлений между элементами обработки

Answer 8 · 2012-03-01 23:38:25

если у вас поле принимает ограниченное количество значений, (enumeration), то по нему будет построена битовая шкала. То есть для каждого значения будет храниться вектор из 0 и 1 длиной в количество записей. Думаю дальше понятно.
Таким образом можно сразу получить номера записей с данным значением поля.

Answer 9 · 2012-03-01 13:22:43

Скорее всего разницы никакой не будет, поскольку и в том и в другом случае количество записей с флаг =0 или processed_time = 0 одинаковое. Индекс на processed_time только позволит намного быстрее делать статистические запросы с количеством обработанных заданий во временных промежутках (нужно ли вам это?).
У индекса есть такое значение как cardinality (дословно с англ: «мощность»). И чем ближе значение этого свойства к общему количеству записей — тем быстрее работает поиск по индексу.

id	select_type	table	type	possible_keys	key	key_len	ref	rows	Extra
1	SIMPLE	comments	ALL	warn	NULL	NULL	NULL	533432	Usingwhere

warn	COUNT(*)
-1	3792
0	529637
137888	3

Вопрос по индексам MySQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт