Архитектура MySQL таблицы: строки или числа

Question

Cyapa @Cyapa

Архитектура MySQL таблицы: строки или числа

Джентльмены, у меня дилемма.

Реорганизую таблицу в БД, в этой таблице есть столбец (далее services) который используется для хранения статуса объекта в каких-то категориях. Статус это цифра от 0 до 3. Количество категорий может меняться (сейчас их 11).

То есть, для примера:

Объект 1:
Категория 1 - Статус 3
Категория 2 - Статус 1
Категория 3 - Статус 2
...

Объект 2:
Категория 1 - Статус 1
Категория 2 - Статус 3
Категория 3 - Статус 2
...

На данный момент для хранения статусов используется VARCHAR. То есть, просто 11 символов, каждый из которых представляет статус категории с номером равным позиции этого символа.

...
(1, '31200000000'),
(2, '13200000000')
...

Очень часто приходится проверять статус категории. Для поиска используется LIKE.

Есть мысль хранить эти статусы в BIGINT используя четырехричную систему счисления. Иными словами, каждый разряд четырехричного числа будет хранить статус категории.

...
(1, 39), #39₁₀ = 213₄
(2, 45) #45₁₀ = 231₄
...

Для определения статуса будет использоваться формула:

services mod 4^{service + 1} div 4^service

Где service это индекс категории, отчет с нуля.

Я провел небольшой тест, на идентичных таблицах из 13 тысяч записей. Используя следующие запросы:

/* Запрос 1 */ SELECT * FROM `test_b` WHERE `services` LIKE '___2%';
/* Запрос 2 */ SELECT * FROM `test_a` WHERE (`services` MOD 256) DIV 64 = 2;

Вот результаты для 10 000 выборок:

#	Запрос 1	Запрос 2
01	~~28.21с~~	27.31с
02	27.18с	~~27.26с~~
03	~~28.31с~~	27.56с
04	~~29.25с~~	27.14с
05	~~29.18с~~	27.47с
06	~~27.60c~~	27.47c
07	~~27.74c~~	26.79c
08	~~27.43c~~	26.95c
09	~~27.99c~~	26.52c
10	~~28.80c~~	28.06c

Судя по этим тестам вариант с BIGINT выигрывает 3.2% в скорости. Могу предположить, что при увеличении объемов таблицы, прирост будет только увеличиваться.

Технология тестов

Замерялось все вот этим php кодом:

$time_taken = microtime(true);	
for($i = 0; $i < 10000; $i++)
{
	mysql_query("Запрос");
}
$time_taken = microtime(true) - $time_taken;

Так же, для удобства, была написана хранимая функция:

DROP FUNCTION IF EXISTS `GET_SERVICE_STATE`;
DELIMITER //
CREATE FUNCTION `GET_SERVICE_STATE`(`services` BIGINT, `service` BIGINT)
RETURNS TINYINT
BEGIN
	RETURN (`services` MOD (`service` * 4)) DIV `service`;
END //
DELIMITER ;

Но результаты ее использования оказалось плачевны.

SELECT * FROM `test_a` WHERE GET_SERVICE_STATE(`services`, 64) = 2;

Работает в ~20 раз медленнее исходного запроса. Не могу понять, это из за дополнительного умножения или из за самого вызова функции?

Для себя я выявил следующие плюсы и минусы способа с BIGINT над способом с VARCHAR:
+ Экономия 3 байт на каждую запись в таблице
+ Прирост скорости, хоть и не значительный
+ Нет необходимости изменять структуру таблицы при увеличении количества категорий

- Ограничение на количество категорий - 31 штука
- В самой БД визуально не видно состояния категорий

Пока что, я склоняюсь в сторону способа с BIGINT. Пожалуйста, помогите сделать правильный выбор. Или подскажите способ более эффективный.

Вопрос задан более трёх лет назад
3389 просмотров

3 комментария

Подписаться 5 Оценить 3 комментария

Владимир Полищук @NorthDakota

Какой движок вы используете? MyISAM? InnoDB?

Написано более трёх лет назад
Владимир Полищук @NorthDakota

И ещё не совсем понятно как это выглядит на самом деле. предоставьте SHOW CREATE TABLE плиз

Написано более трёх лет назад

Cyapa @Cyapa Автор вопроса

Сейчас:

CREATE TABLE IF NOT EXISTS `test_b` 
(
  `id` int(10) unsigned NOT NULL,
  `services` varchar(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Хочу сделать вот так:

CREATE TABLE IF NOT EXISTS `test_a` 
(
  `id` int(10) unsigned NOT NULL,
  `services` bigint(20) unsigned NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

5 комментариев

Алексей Прохоров @megahertz

поддерживаю, я бы еще enum использовал вместо TINYINT

Написано более трёх лет назад
Юрий Ярош @d00mko

Человеку однозначно нужно вспомнить учение про нормальную форму, нормализацию и денормализацию модели базы.

Написано более трёх лет назад
Rsa97 @Rsa97

Заодно будут работать индексы по cat_id и status

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

Не могу уловить сути. Можно на примере с моими данными показать? (данные в вопросе).

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

Отписался ниже.

Написано более трёх лет назад

3 комментария

1 комментарий

9 комментариев

Cyapa @Cyapa Автор вопроса

Все, понял мысль всех тут отписавшихся.
Но разве это оправдано? Объем базы увеличивается в десятки раз. Да и дополнительный JOIN, как-то отпугивает. Не станет ли это проблемой, ведущей к снижению скорости? На счету каждая мс, это все таки API..

Написано более трёх лет назад
Юрий Ярош @d00mko

Совсем не в десятки: дублирующиеся сложенные FK в InnoDB группируются.
Т.е. у вас будет 1 ID объекта, все ID категорий где он хранится, и статус. При этом в табличке будет ещё куча дублирующихся ID объёкта, хотя на самом деле они спрятаны за дополнительным ключём в B-tree. Также это поможет с кэшированием результатов и расстановкой приоритетов планировщика. Собственно не все что крякает - утка...

Cоветую почитать
www.ozon.ru/context/detail/id/6573935
www.ozon.ru/context/detail/id/7353438

Написано более трёх лет назад
Юрий Ярош @d00mko

* ... где он хранится, и (соответствующие) статус(ы).

Денормализация модели - "избавление от JOIN'ов" не всегда полезно.
Вообще считается правильным подходом тотальная нормализация модели, с последующим профилированием и нагрузочным тестированием...

После чего таблички по одной сливают в кучу - смотрят на сколько они разрастаются и стоит ли прирост производительности в 1-3% роста таблицы на 5-10%. Рано или поздно упираются в производительность дисковой подсистемы, и там уже сливай/не сливай - больше не выжмешь.

p.s. вообще изврат с битовыми полями и прочим доступен в PostgreSQL, и особенно весело работает с сишными функциями. MySQL для меня немного морально устарел.

Написано более трёх лет назад
Алексей Сундуков @alekciy

@Cyapa в десятки? Не нужно так драматизировать. Чем JOIN пугает? Это нормальный стандартный механизм который можно и нужно использовать. Главное нормальные fk между таблица расставлять. А судя по описанию имеем преждевременную оптимизацию. Приводим к нормальным формам, делаем нормальную структуру, начинаем что-то переделывать если возникает реальная проблема.

P.S. Есть на руках проекты с десятком хитрых JOIN на таблицах по миллиону записей и все прекрасно работает.

Написано более трёх лет назад
Rsa97 @Rsa97

Ну можете просто в исходной таблице создать поля service00State - service10State и использовать их не заморачиваясь с преобразованием туда-сюда.

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

@Rsa97, нет, такой вариант меня совсем не устраивает.

@d00mko, ну то что ID объекта сгруппируется это понятно. Но вот каждый сервис будет занимать 2 байта, что в итоге (при условии 31 сервиса), 62 байта на объект или увеличение веса в ~8 раз. Не считая навешанных индексов. Или я снова что-то упустил?
И почему немного математики считается извратом?

@alekciy, да, я знаю что JOIN это нормально. Но вот когда приходится соединять 5-6 таблиц невольно задумываешься, а оправданно ли это...

Написано более трёх лет назад
Алексей Рехов @Zorato

@Cyapa , Я не думаю, что проблема свободного места в наше время настолько актуальна.
Что касается 5-6 JOIN-ов, то тут уж ничего не поделаешь, на мой взгляд, если бы их не было, то код был бы еще ужаснее и поддерживать его была бы та еще головная боль.

Написано более трёх лет назад
Юрий Ярош @d00mko

Возможно человеку стоит разобраться с принципом функционирования B*-tree. В любом случае дополнительный ключ не может замедлить выборку, наоборот он замедлит вставку.

Физического дублирования ключей в таблицах нет, так что размер таблицы, размер индекса в оперативке, и данных на винте - сильно отличаются.

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

@d00mko разобрался на практике - время выполнение в 2,5 раза больше. И ну лишние 14 метров веса данной таблицы, на 0,5 метра исходной.
Мне это напоминает использование фрэймворка - удобно, просто, но кучу ресурсов приходится выкидывать в никуда.

Написано более трёх лет назад

8 комментариев

Cyapa @Cyapa Автор вопроса

Мне кажется, или это ровно так же идея, что и у меня, только с избыточностью?

Написано более трёх лет назад
Алексей Рехов @Zorato

Да, только запрос без MOD/DIV, а со сравнениями. Если на колонку service повесить индекс, то должно работать быстрее.

Написано более трёх лет назад
Rsa97 @Rsa97

Такое сравнение не будет работать. Найдите min и max для service = 3 и state = 2 и проверьте на 02000 и 32333, при этом 20222 не должна попасть под условие

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

Не использовать MOD/DIV легко:

`services` & (4 ^ service * status) > 0

(4 ^ `service` * `status`) <- на стороне php.

Написано более трёх лет назад
Rsa97 @Rsa97

Тоже неправильно. Тогда уж
`services`&(3*(4^(service-1))) = status*(4^(service-1))

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

@Rsa97, да уже и сам заметил.) Именно так и сделал, только у меня 4 ^ service, потому что сервис от нуля нумеруется.

Написано более трёх лет назад
Алексей Рехов @Zorato

@Cyapa И как с производительностью, если не секрет?

Написано более трёх лет назад
Cyapa @Cyapa Автор вопроса

@Zorato, на 10к выборках выигрывает у LIKE порядка 5-7 секунд.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- вчера
- 180 просмотров
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 302 просмотра
3

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 288 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 170 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
Показать ещё Загружается…

Какой движок вы используете? MyISAM? InnoDB?
И ещё не совсем понятно как это выглядит на самом деле. предоставьте SHOW CREATE TABLE плиз
Сейчас:
CREATE TABLE IF NOT EXISTS `test_b` ( `id` int(10) unsigned NOT NULL, `services` varchar(11) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Хочу сделать вот так:
CREATE TABLE IF NOT EXISTS `test_a` ( `id` int(10) unsigned NOT NULL, `services` bigint(20) unsigned NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Answer 1 · 2013-12-08 09:00:27

Мне кажется у вас неправильно организована структура данных.
Могу предложить хранить статусы в отдельной табличке (cat_statuses).

+--------------------------------------+
|   id   |    cat_id    |    status    | 
+--------------------------------------+

Где status - TINYINT
cat_id - INT

Далее просто использовать RIGHT JOIN:

SELECT * FROM `cat_statuses` as cs 
RIGHT JOIN `test_b` as tb ON (as.cat_id = tb.services)
WHERE cs.cat_id=4;

Answer 2 · 2013-12-08 09:40:04

Юрий Ярош @d00mko

Не знаешь второй нормальной формы ?!
Садись, два !

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2013-12-08 17:09:07

Насколько я понял у вас есть объекты, у которых много категорий, у которых много статусов.
Я бы разделил это на 4 таблицы: объекты, категории, статусы и таблица связей (object_id, category_id, status_id) - все 3 поля кстати можно объединить в составной первичный ключ.
Т.к. статусов мало, можно взять TINYINT в качестве первичного ключа.
4ричную систему делать не надо - пожалейте мозг того, кто это будет дальше поддерживать.
Таким образом сможете легко сделать запрос с джоинами по нужным таблицам и все будет работать очень быстро.
Да, и проводить тесты на скорость на основании 13000 рядов - это несерьезно. Отключите кэш запросов mysql (или просто SELECT SQL_NOCACHE <тут ваш запрос> ) и сделайте хотя бы миллион рядов (чтобы таблица в память не влезала), тогда будут результаты поинтереснее. Хранимые процедуры кстати отрабатывают намного медленнее чем прямые запросы.
Почитайте книгу High Performance Mysql - очень прочищает мозги.

Answer 4 · 2013-12-08 11:34:15

Пусть в вашей таблице объектов есть поле objectId - идентификатор объекта. Создадим дополнительную таблицу, связанную по полю objectId с таблицей объектов. Таблица содержит поля номера сервиса serviceNum и его статуса serviceStatus.

CREATE TABLE `service_states` 
  `objectId` BIGINT NOT NULL DEFAULT '0',
  `serviceNum` INT NOT NULL DEFAULT '0',
  `serviceState` tinyint(1) DEFAULT '0',
  PRIMARY KEY (`objectId`,`serviceNum`),
  KEY `byServiceState` (`serviceState`),
  KEY `byServiceNum` (`serviceNum`))
ENGINE=InnoDB DEFAULT CHARSET=utf8';

Запрос всех объектов, аналогичный вашему, будет выглядеть как

SELECT * FROM `test_b` as tb
RIGHT JOIN `service_states` as ss USING(objectId)
WHERE ss.serviceNum = 3 AND ss.serviceState = 2;

Answer 5 · 2013-12-08 14:26:29

Если Вам так не нравится вариант с JOIN-ами, то попробуйте использовать 10 систему счисления (пусть немного избыточно, зато будет запас по статусам). Проверка сведется к вычислениям критериев на стороне PHP:

$service = 3; // от 1 до 11
$status = 2; // от 1 до 4
$min = $status * pow(10, $service);
$max = ($status+1) * pow(10, $service);

И последующим запросом к MySQL:

SELECT * FROM `test` WHERE `service` >= $min AND `service` < $max

При этом для производительности надо бы добавить индекс по колонке service:
ALTER TABLE `test` ADD INDEX `test` (`service`)
P.S. возможно что-то не так с формулой $min и max, но сама идея - использовать >, < (или BETWEEN) для проверки нужного разряда.

Архитектура MySQL таблицы: строки или числа

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт