Селекты из таблицы на 5 млн строк. Если разбить её на 100 таблиц — будет выигрыш в производительности?

Question

Александр @librown

На-все-руки-мастер и немного кодер

MySQL
SQL

Селекты из таблицы на 5 млн строк. Если разбить её на 100 таблиц — будет выигрыш в производительности?

Приветствую, коллеги!

Посоветуйте, есть таблица с товарами (InnoDB на 5 млн строк). Индексы добавлены. Но на сервере всего 4Гб памяти.

Приходится делать много запросов к ней с джойнами других больших таблиц (фильтр интернет-магазина: по производителю, цвету; сортировка по цене, по дате). Такие селекты выполняются иногда до 30 секунд.

Есть ли смысл раскидать товары на 50-100 таблиц (для каждой категории свою таблицу)? В итоге получатся таблицы по 30-100 тыс строк, не больше. Таким образом можно радикально улучшить производительность?

Или, все же самый правильный вариант - это добавить памяти гигабайт до 16 и наслаждаться результатом? :)

Спасибо!

Вопрос задан более трёх лет назад
5026 просмотров

3 комментария

Подписаться 13 Оценить 3 комментария

Пригласить эксперта

Ответы на вопрос 14

14 комментариев

Arris @Arris

ОТКУДА СТОЛЬКО ТОВАРОВ БЛИН

Я думаю, там просто какой-нибудь магазин одежды. И каждая блузка отдельного цвета или размера хранится как отдельный товар. А размеров у нас сколько? А цветов? Так что реальных товаров может быть тысяч 5.

Написано более трёх лет назад
Arris @Arris

И хорошо еще если одежды. У контактных линз целая куча параметров - кривизна поверхности, диоптрии... что-то там еще, не помню уже. Но если их бездумно перемножать - получается сильно дофига.

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Если мне не изменяет память, в базе данных одной небольшой сети по торговле бытовой техникой (типа мвидео, но помельче масштабом, десятка три магазинов всего) было несколько десятков тысяч видов товаров. Не едениц товара, а именно записей типа "Hynix 1 GB DDR2 800 MHz (HYMP112U64CP8-S6)" плюс почти к каждому несколько строк описания, несколько картинок и табличка с характеристиками, по которым поиск и фильтры работают.
Что там творилось в 1С с товарами я и представить боюсь. И 5 млн записей - это не много для базы данных. Но уже надо понимать как оптимизировать запросы, конечно же.

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

Arris: 5к товаров, пусть по 10 атрибутов на товар, в целом 50к, вообще мизер, на 2 порядка меньше чем у ТК. Даже если товаров 50К все еще на порядок выше заявленной цифры. Вывод - или что-то здесь не так, или мы действительно советы чуваку с таобао даем.
Stalker_RED:
И 5 млн записей - это не много для базы данных. Но уже надо понимать как оптимизировать запросы, конечно же.
Это да, и как мы видим вот прям тут - еще и таблица должна быть в приличном состоянии, индексы, все дела, мусора поменьше, поменьше магии и побольше здравого смысла. Что при разгребании чужого кода часто упирается в легаси. Так что все еще жду ответа - что там наколбасено на 5 лимонов, и можно ли это все покоцать на пару порядков.

Написано более трёх лет назад
Fortop @Fortop

ThunderCat: каждый товар с разным набором атрибутов может учитываться под отдельным артикулом.
Так что какая-то из таблиц действительно может быть миллионной.

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

Fortop: йес, это не исключает изначальной мысли что 90% заполнения - мусор. И это реально должно быть МНОГО товаров и ДОФИГА атрибутов. учитывая что часть атрибутов все же разнесена (видимо) в разные таблицы:
У меня сейчас классический нормализованый вариант из трех таблиц: item, brand, item_brand. И такие наборы для каждого фильтра - цвет, бренд... Как эти связи можно по другому хранить?

Написано более трёх лет назад
Fortop @Fortop

ThunderCat:
Возможно.
Вряд ли у автора Wallmart.

Но причины тормозов скорее всего не в мусоре, а в индексах или самих запросах. 5млн для 4Гб вполне терпимо.
И 30 секунд на запрос... Это странно.

Написано более трёх лет назад
Dark_Dante @Dark_Dante

Это еще что, у меня тут на серваке одна база есть, 147 млн записей - номенклатура автозапчастей

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

Dark_Dante: Вроде TecDoc имеет около 50М кодов запчастей, это наиболее известный и объемный (ИМХО) каталог. Но там своя база, не "влоб" прикрученная.

Написано более трёх лет назад
Dark_Dante @Dark_Dante

ThunderCat: Кодов то да, а там же еще таблицы соотношений кодов к группам, групп к моделям и вот это вот все.

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

Dark_Dante: пропустил на автомате база -> таблица )

Написано более трёх лет назад
Arris @Arris

ThunderCat: 10 атрибутов одного типа, 10 атрибутов другого, 20 атрибутов третьего. И они перемножаются. Впрочем там чертте что может быть понакручено.

Написано более трёх лет назад
PQR @PQR

Приходится делать много запросов к ней с джойнами других больших таблиц

Проблема в этих JOIN'ах, покажите нам EXPLAIN запроса

Написано более трёх лет назад
Vilintritenmert @Vilintritenmert

Табличка на 20 кк записей, загрузка страницы до 300 мс.

Очень помогли, нормализация, композитние ключики.

Написано более трёх лет назад

4 комментария

Александр @librown Автор вопроса

Можете чуть подробнее пояснить про денормализованную форму для фильтров? У меня сейчас классический нормализованый вариант из трех таблиц: item, brand, item_brand. И такие наборы для каждого фильтра - цвет, бренд... Как эти связи можно по другому хранить?

Написано более трёх лет назад
laxikodeje @laxikodeje

Александр: меньше таблиц - это и будет денормализованная в данном случае.

самый крайний вариант выглядит так:
1 таблица с товаром

Название товара|Значение фильтра № 1|Значение фильтра №2|Значение фильтра №3

Или в вашем случае так

Название товара|Название бренда

Или так
Название товара|ИД бренда
вторая таблица
ИД бренда|Название бренда

В вашем случае непонятно зачем нужно 3 таблицы
item, brand, item_brand
Эти 3 таблицы предполагают что один товар может относится к нескольким брендам одновременно. Зачем это?

Написано более трёх лет назад
Макс Жук @zm_llill

А что если вместо денормализации использовать Представления?

Написано более трёх лет назад
laxikodeje @laxikodeje

Макс Жук: зачем?

для производительности?
тогда нужно "материализованные представления".
но что-то сомневаюсь, что овчинка выделки стоит.

Написано более трёх лет назад

Комментировать

2 комментария

13 комментариев

laxikodeje @laxikodeje

Тоже работал у садомазохистов, с АНАЛогичным сервером,и базой в 90гб!

Зачем ругаете тех, кто вам платил?

Все дело в ВАШЕ умении.

У меня БД 2 Т на сервере 8 Г.
НИ ОДИН из запросов не выполняется дольше 3 секунд.

Написано более трёх лет назад
chupasaurus @chupasaurus

laxikodeje: т.е. по вашему мнению, факт оплаты труда нивелирует условия труда.

Написано более трёх лет назад
Arris @Arris

chupasaurus: ну так вы же у них работали. Если все так плохо было - зачем работали? И почему не сделали лучше?

Написано более трёх лет назад
Astrohas @Astrohas

laxikodeje:
Все дело в ВАШЕ умении.
есть вещи которых можно оптимизировать. Но в моем случае несколько сервисов использовали эту базу данных, и реструктуризация бд, привлекла бы за собой изменения исходного кода всех этих сервисов.

Нет со скоростью у нас проблем вроде не было, ибо самая большая таблица у нас была максимум на 800к строк. Проблема была в полнейшей отсутствии нормализации и четкой структуризации. Масло в огонь добавляли наименования полей таблиц, например в одном join-е на 3 таблиц где ключевое поле "teacher_id" три вида этого выражения - "id_prep" , "teacher_id", "id_teacher". Тоже насчет факультетов, "faculty_id", "id_fakultet", "fakultet_id" .... и это все вершина айсберга.
Зачем ругаете тех, кто вам платил?

Работали бы вы с такой базой, сами бы превратились бы в серийного убийцу, с жаждой убить всех кто проектировал такую базу.

Написано более трёх лет назад
Astrohas @Astrohas

Arris:
ну так вы же у них работали. Если все так плохо было - зачем работали? И почему не сделали лучше?

Не в моих обязанностях было это все администрировать. Для сервисов над которыми я работаю был отдельный сервер с постгресом, индексами, кешированием и прочими блекджеками. И разгребать мусор той базы не хотелось

Написано более трёх лет назад
Arris @Arris

Хасан Истамкулов: "не хотелось". А ругать хочется. Молодца.

Написано более трёх лет назад
Astrohas @Astrohas

Arris:
"не хотелось". А ругать хочется. Молодца.

разгребание мусора не входило под мою ответственность.

Написано более трёх лет назад
Илья Белобородов @kowap

стандартные инструмены мускула вроде "partitioning"

вот это поворот. не знал о такой фиче

Написано более трёх лет назад
laxikodeje @laxikodeje

Хасан Истамкулов:
Проблема была в полнейшей отсутствии нормализации

Это не является недостатком. Так же как и нормализация не является достоинством.

Разные бывают ситуации.

В данной конкретной задаче, поднятой топикстартером - как раз нужна ИМЕННО денормализация.

Написано более трёх лет назад
laxikodeje @laxikodeje

chupasaurus:

т.е. по вашему мнению, факт оплаты труда нивелирует условия труда

Есть исполнитель.
Есть заказчик.

Заказчик нанимает исполнителя именно потому, что не может выполнить задачу сам, так как не является профи в данной сфере.

После чего исполнитель обвиняет в косячной системе заказчика, который вовсе не является специалистом в деле ради которого он и нанял профи-исполнителя.

Это как к вам пришли бы мастера обои клееть и обосрали вас потому что у вас стена с известкой - обои видите ли плохо приклеиваются.

Написано более трёх лет назад
Astrohas @Astrohas

laxikodeje: c той базой работало 8 специалистов, и 12 сервисов. Rebase базы, и апгрейд сервисов под новую базу обошелся бы в сотни человеко-часов. Для программистов это дело наверное дзена, но для работодателя это все равно что пинание балды. У всех было отвращение работать с такой базой.
Насчет обвинения работодателя. Я его не обвиняю. Но не я делал базу, и не мне было ее поддерживать. Но кое-что на что у меня нашлось время я сделал.
Да прежние таблицы были раньше разделены по 1500 (всего-то) записей. Первым же делом они были объединени в одну таблицу и сегментированы через partitioning. Далее я потратил много часов для перенастройки mysql (inno_db_per_tabe и тд). Далее я потратил время на переселения всех "программистов" с samba на ssh и git.

Написано более трёх лет назад
chupasaurus @chupasaurus

laxikodeje: Это если исполнитель нанят по контракту на выполнение определённых работ, а не трудовому договору, и заказчик заинтересован в их результате и оценивает риски.
Вы без уточнения контекста заявиили, что ругать тех, кто платил, не надо потому что.
Arris: я не автор данного ответа.

Написано более трёх лет назад
Arris @Arris

chupasaurus: извините ,промахнулся, видимо.

Написано более трёх лет назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 181 просмотр
4

ответа
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 282 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 114 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 302 просмотра
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 92 просмотра
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 186 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 248 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 203 просмотра
1

ответ
SQL

+1 ещё

Средний
Как правильно написать запрос в SQL с NOT IN, NOT EXISTS или как-то иначе?
- 1 подписчик
- 28 авг.
- 183 просмотра
0

ответов
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 120 просмотров
2

ответа
Показать ещё Загружается…

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

а если надо выбрать из нескольких категорий?

Искусственно разбивать таблицу, ИМХО, решение так себе.

В mysql есть Partitioning - может это поможет...
Я бы посоветовал еще хранить каждую таблицу в отдельном файле. Innodb_file_per_table, как-то так называется опция в конфиге.
Александр
Не забудьте отметить решением тот ответ, который смог вам помочь. Это мотивирует участников продолжать отвечать на ваши вопросы. =)

Answer 1 · 2017-07-21 00:57:08

Поддерживаю longclaps, вы что, алиекспресс админите? откуда в таблице товаров 5М строк, вы что, спички поштучно учитываете? Это номер раз, второе - если фильтры такие забубенные - делайте в 2-3 запроса через бэк, что у вас там, пых, нода, джанга, ограничивайте по уму количество товаров в первой выборке по самому быстрому индексу и самой ограничивающей выборке, например все товары выбранной категории, далее филтр только на результат выборки по типу id in(1,2,3,4). И все же скажите, не мучьте, ОТКУДА СТОЛЬКО ТОВАРОВ БЛИН, я ж не засну теперь...

Answer 2 · 2017-07-20 23:14:21

5 миллионов записей для современных СУБД - это ерунда.
Было бы 5 миллиардов - можно было бы так заморачиваться, как вы хотите.

Дело в том, что вы не правильно организовали хранение фильтров.
Это действительно простой метод, но SQL в нормализованной форме не подходит для фильтров товаров по категориям товаров и интернет-магазине.
Нужна или ДЕНОРМАЛИЗОВАННАЯ форма с дублированием.
Или вообще БД другого типа. Я лично под такую задачу фильтрации предпочитаю Tarantool, но, полагаю, годится и Solr

Или, все же самый правильный вариант - это добавить памяти гигабайт до 16 и наслаждаться результатом? :)

Не-а.
Не будет толка.
Кроме того не забывайте - современные требования таковы что было бы весьма хорошо если бы фильтр отрабатывал вообще мгновенно почти, пока пользователь поставил очередную галку - товар по предыдущему фильтру уже загрузился с сервера в браузер.

Answer 3 · 2017-07-20 21:38:07

Что там делает таблица на 5млн строк? Отнести нахер в архивную таблицу всё, что 10 лет как мхом позарасло - это осмысленое действие. Уверен, 90% говна улетит по самым мягким критериям.
100 актуальных таблиц - это гораздо больший ад чем то, что есть.

Answer 4 · 2017-07-20 22:05:57

Нет, выигрыша вы не получите, потому что в MySQL есть ещё время на открытие таблицы некоторое, и там доп. логику придётся писать с условиями из какой таблицы выбирать. Надо денормализовать данные хотя бы немного, сделать EXPLAIN, посмотреть, бывает MySQL сходит с ума и не использует правильные индексы.
5 млн. это не очень много, уверен всё можно привести в норму.
P.S. Сам работал с таблицей 3,5 млн. записей на сервере с 2 Гб памяти, всё отлично, дольше 0,1 секунды запросов нет, хотя и это многовато имхо.

Answer 5 · 2017-07-21 10:37:08

Прироста не будет.
Но давайте посмотрим на проблему под другим углом:

5кк строк - это ничтожное кол-во. Если у вас происходят селекты по 30 секунд, значит либо у вас не выставлены правильные индексы на те колонки, которые вы селектите, либо вы совершаете LIKE, начинающиеся с %. Индексы не используются при запросах LIKE %...%. Только при LIKE ...%

Ещё одна возможная причина - это хранилище. Посмотрите, не упирается ли всё в этот момент в диски. Если окажется, что в момент тяжёлых запросов у вас высокий iowait, попробуйте мигрировать на площадку с SSD.

Answer 6 · 2017-07-21 16:05:50

1. Возможно, тут более правильно использовать noSQL.
2. Даже если SQL (= РСУБД) - нужно избавляться от JOIN-ов.
Но! ! Уровень JOIN-ов =1 может оказаться вполне приемлем, если вы
- при фильтрации на фронте сразу выделите id связанных сущностей (бренд, цвет, и т.п.)
- правильно настроите индексы, и сделаете правильные запросы
Например, при хотя бы одном активном фильтре делаете 1 SELECT, а потому уже в PHP (или что там у вас) отфильтровываете по другим параметрам.
И да, надеюсь, тексты и тем более картинки (не в БД же они?) у вас не выбираются этим же запросом?
Если вдруг выбираются (типа SELECT * ..), замените "*" на "поле1, поле2" (только нужные), может оказаться приятным сюрпризом

Answer 7 · 2017-07-20 20:26:20

Но на сервере всего 4Гб памяти.

Тоже работал с АНАЛогичным сервером,и базой в 90гб!
Как вы будете иметь доступ к таблицам категорий? Обычно франкейнштейномеркеры делают вспомогательную таблицу типа "category - category_tabe_name". Но учтите что для изъятия любого товара из базы, придется делать минимум два запроса.
Также нужно учесть фильтры по нескольким категориям, и для например 2 категорий будут два запроса для запрашивания таблиц, и два для запрашивания информации из таблиц + еще один для результатирования.
Гораздо проще докупить памяти, поднастроит кешировоание, добавить дополнительные индексы и всякую всячину.
----
и если вы все еще хотите делить по таблицам советую использовать стандартные инструмены мускула вроде "partitioning" который особенно полезен, и на хабре есть мануальчик по этому https://habrahabr.ru/post/66151/

Answer 8 · 2017-07-21 02:39:41

chupasaurus @chupasaurus

Сею рефлекторное, злое, временное

Clickhouse. Б-гоподобные индексы, column-based, вот это вот всё.

Ответ написан более трёх лет назад

Комментировать

Answer 9 · 2017-07-27 16:06:12

Если вкратце, то у вас три варианта:
1. оптимизировать запрос
2. вертикальноє масштабирование БД (более мощный сервер)
3. горизонтальное масштабирование БД (шардинг)

То, что вы хотите - ето антипаттерн: https://stackoverflow.com/questions/16721772/mysql...

Answer 10 · 2017-07-20 20:24:15

Dimonchik @dimonchik2013

non progredi est regredi

память да, но для JOIN проц важнее, попрофилируйте лучше запросы

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2017-07-20 20:48:34

Приходится делать много запросов к ней с джойнами других больших таблиц (фильтр интернет-магазина: по производителю, цвету; сортировка по цене, по дате). Такие селекты выполняются иногда до 30 секунд.

SQL здесь не подходит.
Как реализуется набор фильтров для различных категорий по характеристикам товара?

Faceted Search with Solr

Answer 12 · 2017-07-21 14:32:37

В такой постановке вопроса - самый правильный вариант оценить стоимость каждого из решений на некоторый срок (года, два, десять) зависящий от скорости изменений в проекте и его среде окружения.
И выбрать более эффективное с точки зрения стоимости.

Answer 13 · 2017-07-27 12:02:07

Вам поможет такое эмпирическое правило - увеличение размеры таблицы в 10 раз замедляет поиск по индексу не более, чем вдвое. Увеличение таблицы в 100 раз уменьшает поиск не более, чем в 4 раза.

На самом деле это абсолютно неточно, мы не учитываем размещения промежуточных результатов разных соединений на диске и так далее. Но главное - тут становится очевидным, что партиционирование таблицы вам скорее во вред, чем на пользу.

Что я вам рекомендовал бы - просто вычитать EXPLAIN.

Далее просто сменить MySQL на Postgres.

И только после этого заниматься denormalization, NoSQL etc.

Answer 14 · 2017-07-28 06:47:55

Самое важное в любой БД - это структурная оптимизация. Возможно стоит перепроектировать таблицу и посмотреть в сторону классической нормализации. Полностью согласен с теми, кто очень сомневается в номенклатуре в 5 млн. записей.
Классика - это одно наименование в основной таблице а цвета, размеры и т.п в другой. А в прайсе и складе - комбинации. Кстати, при классическом подходе у вас фильтры естественным образом сами разложаться на разные таблицы.

Селекты из таблицы на 5 млн строк. Если разбить её на 100 таблиц — будет выигрыш в производительности?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт