Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Question

Crash @Bandicoot

Вась-программист

Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Работаю над проектом, в котором достаточно интенсивно накапливаются данные, в одной из таблиц. Над данный момент в ней 60 с небольшим колонок и более 500к записей. Записей прибавляется примерно по 3-4к в сутки, в будущем интенсивность записи будет только нарастать. Интерфейс работы с ней начал подтормаживать, в связи с чем сейчас занимаюсь оптимизацией.

Для себя выделил следующие способы:

1. Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.
2. Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.
3. Партиционирование. Разумеется работа в проекте не идет одновременно со всеми записями, большинство старых записей хранятся больше для истории. Но тем не менее, они могут понадобится в любой момент. Исходя из этого, пока планирую создать новую, "горячую" таблицу с идентичной структурой. В "горячей" таблице будут храниться свежие данные, скажем за месяц. В "холодной", исходной таблице - вообще за все время, включая свежие записи. Горячая таблица будет для оперативной работы, холодная - для поиска по запросу. В дальнейшем холодную таблицу можно будет разделить на несколько, провести шардинг.

Подскажите пожалуйста, что можно еще сделать?

Вопрос задан более трёх лет назад
738 просмотров

3 комментария

Подписаться 6 Средний 3 комментария

Евгений Ромашкан @EvgeniiR

Миллион+ это копейки, вопрос тут скорее почему у вас по 60 колонок в одной таблице.

Написано более трёх лет назад
Crash @Bandicoot Автор вопроса

Евгений Ромашкан, нарастание количества записей за сутки идет драматично, поэтому копейки скоро превратятся в рубли, а те в свою очередь десятки и сотни рублей) Нужно решать вопрос с оптимизацией уже сейчас.

Таблиц с таким количеством колонок всего несколько в проекте, тут играет роль специфика (это таблица с заявками от клиентов). У каждой заявки множество специфичных конкретно для нее параметров.

Написано более трёх лет назад
Дима @v_m_smith

попробуйте Column store, например Clickhouse или clustered column Store в MS SQL. ваш миллион сожмется в десяток-сотню мегабайт. они как раз заточены под таблицы с сотнями столбцов. Если сложные джойны не нужны, а достаточно схемы звёзда, то самое то

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Java-разработчик

9 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее

Решения вопроса 4

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 249 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 195 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 220 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 619 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 341 просмотр
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 128 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 414 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 129 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 182 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 202 просмотра
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Миллион+ это копейки, вопрос тут скорее почему у вас по 60 колонок в одной таблице.
Евгений Ромашкан, нарастание количества записей за сутки идет драматично, поэтому копейки скоро превратятся в рубли, а те в свою очередь десятки и сотни рублей) Нужно решать вопрос с оптимизацией уже сейчас.

Таблиц с таким количеством колонок всего несколько в проекте, тут играет роль специфика (это таблица с заявками от клиентов). У каждой заявки множество специфичных конкретно для нее параметров.
попробуйте Column store, например Clickhouse или clustered column Store в MS SQL. ваш миллион сожмется в десяток-сотню мегабайт. они как раз заточены под таблицы с сотнями столбцов. Если сложные джойны не нужны, а достаточно схемы звёзда, то самое то

Answer 1 · 2019-07-17 14:43:17

Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

JSON объёмнее плоской таблицы хотя бы из-за необходимости в хранении ключей.
И, насколько знаю, mysql пока умеет только btree. Что подходит для произвольного поиска от слова никак. Только для заранее известного критерия.

3. Партиционирование.

планирую создать новую, "горячую" таблицу с идентичной структурой.

Слово неплохое упомянуто. Осталось понять зачем всё остальное. Партицировать таблицы умеет штатно даже такая удивительная штука как mysql и очень давно.

Профилируйте где время теряете и смотрите что с данными делаете.
Озвученные цифры не впечатляют от слова совсем. Если человек хочет поиграться с разными подходами индексирования и производительностью сложных запросов - я посоветую с миллиона записей только начинать.

Типичная ошибка - пытаетесь строить аггрегаты и прочие count(*) поверх миллионов строк налету.

Answer 2 · 2019-07-17 14:50:22

Crash,

У каждой заявки множество специфичных конкретно для нее параметров.

значит вся "специфика" должна быть вынесена в отдельную таблицу. А херачить на каждый чих колонку - решение такое себе, по многим соображениям.

1. Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.

скорее для групп полей, по которым осуществляется поиск, выборка, объединение и сортировка. Кроме того - explain, slow log.

2. Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

только если по ним не идет поиск, иначе это нифига не оптимизация, а скорее наоборот.

В остальном мысли о разделении на грячий/холодный стек верные. Можно задуматься еще о переносе части горячих строчек в какой-то мемори сторэйж типа редиса.

Answer 3 · 2019-07-17 15:02:01

Сравнить колонки в таблице и в частых запросах в ней. Оставить в таблице только то, по чему могут быть запросы, скорость которых критична. Желательно оставить только поля фиксированной длины. Остальное - во вспомогательную таблицу, выборка из которой будет редкой либо только по id.

Answer 4 · 2019-07-17 15:03:55

Интерфейс работы с ней начал подтормаживать, в связи с чем сейчас занимаюсь оптимизацией.

Начните с активации slow query log и его анализа, с помощью pt-query-digest (https://www.percona.com/blog/2018/10/15/identifyin... например.
Кол-во записей в таблице не проблема, как правильно сказал Melkij.

Answer 5 · 2019-07-17 18:52:21

Какие есть годные практики для работы с большим количеством записей в таблице (миллион+)?

Большим?
Для современных компьютеров (даже слабеньких смартфонов) - это мизерное количество.

Индексы называется решение.

Не должно тормозить на ваших объемах.
Индексы не правильные. Или запросы.

Или вообще проблема не в БД, а уже после нее.

Сделать explain, посмотреть что там неэффективного.

И, важный момент, выборка данных должна фильтроваться средствами СУБД.
Отдаваться из СУБД на дальнейшую обработку в вашей программе должен мизер.

Партиционирование.

Вы это серьезно? На смешном миллионе записей?

Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

Вообще никак не повлияет. Если только речь не идет о сотнях колонках, объединенных в одну.

Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.

А вы уже знаете "насколько именно чаще"?
С цифрами?
Замеры провели?

Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт