Можно ли в mysql хранить 200 колонок, для 10+млн записей?

Question

one2four @one2four

Можно ли в mysql хранить 200 колонок, для 10+млн записей?

Вопрос в том как это повлияет на скорость и много ли потребуется памяти для запроса.
Имеются метрики A, B, C их около 200 штук, с числовыми значениями, их нужно хранить хранить в ненормальной форме в виде колонок или в массиве: [ {a: 1, b: 7, c: 9} ] или [1, 7, 9, ...] с последующим подсчетом суммы каждой метрики в запросе. Например, есть строки вида
ключевое слово 1 | site 1 | [5, 7, 9, ...]
ключевое слово 1 | site 2 | [1, 3, 2, ...]
нужно сгруппировать ключевое слово, и подсчитать количество метрик, должно быть так
ключевое слово 1 | [6, 10, 11, ...]

Вопрос задан более года назад
2663 просмотра

9 комментариев

Подписаться 6 Простой 9 комментариев

Everything_is_bad @Everything_is_bad

я бы поднял тестовый стенд и проверил

Написано более года назад
Akina @Akina

их нужно хранить хранить в ненормальной форме

Чем обоснована такая странная "хотелка"?

Написано более года назад
mayton2019 @mayton2019

Тут наперед сложно угадать какая из форм хранения информации будет более эффективной.

Эффект наверное зависит от большой совокупности факторов. Я-бы предложил просто
несколько экспериментов на синтетических данных.

Написано более года назад
сергей кузьмин @sergueik

mayton2019, one2four для time series лучше InfluxDB
https://ru.wikipedia.org/wiki/InfluxDB#:~:text=Inf...

Написано более года назад
one2four @one2four Автор вопроса

Akina, пока другого решения не нашел. это нужно для выборки разом топ 10 ключевых слов с метриками
Таблица
name | rating | siteId | region | + 4 фильтра

SELECT name, SUM(rating), SUM(метрики) FROM table GROUP BY `name` ... limit 10;

если делать отдельную таблицу для метрик и делать джоин, то `rating` увеличивается в зависимости от строк правой таблицы, отчего топ будет неправильный

Написано более года назад
Akina @Akina

one2four

пока другого решения не нашел.

Вроде очевидная структура-то:

- идентификатор объекта
- идентификатор метрики
- значение метрики

Таблица
name | rating | siteId | region | + 4 фильтра

Как это соотносится со структурой, показанной в вопросе?

если делать отдельную таблицу для метрик и делать джоин, то `rating` увеличивается в зависимости от строк правой таблицы, отчего топ будет неправильный

Неправильный запрос даёт неправильный результат - что тут странного? составьте правильный запрос.

Написано более года назад
one2four @one2four Автор вопроса

Akina,

Как это соотносится со структурой, показанной в вопросе?

в вопросе привел упрощенный пример того что есть, и задал вопрос, возможно ли хранить и обрабатывать 200+ колонок для записей больше 10млн. Так как хотел, чтоб не было заморочек с пониманием вопроса и ответом. Поэтому на ваш вопрос ответил уже с почти полной структурой, чтоб было понимание почему так сделано.

Неправильный запрос даёт неправильный результат - что тут странного? составьте правильный запрос.

правильный запрос будет содержать вложенный select с перебором десятков тысяч строк, поэтому хотелось бы чтоб был один запрос, который будет группировать ключевые слова по названию(по id названия), суммировать рейтинги, и 200+ метрик, фильтровать при необходимости по нескольким параметрам и сортировать по сумме рейтинга для вывода топ 10 ключевых слов.

Написано более года назад
Akina @Akina

one2four,
правильный запрос будет содержать вложенный select с перебором десятков тысяч строк

Это зачем, спрашивается? Как-то описание задачи ну совсем не тянет на подзапросы.

Вы бы показали пример данных - CREATE TABLE, оставить только 3-4 поля с метриками, INSERT INTO, с десяток записей, и значения только для оставленных метрик, требуемый результат для этих данных, ну и пояснения, как и почему посчитаны те или иные итоги.

Написано более года назад
one2four @one2four Автор вопроса

Akina, спасибо за ответ, постарался описать подробно Как сделать sql запрос для показа топ 10 ключевых слов с группировкой и суммой метрик из другой таблицы?

Написано более года назад

Помогут разобраться в теме Все курсы

Shultais Education

Основы SQL

3 месяца

Далее
Shultais Education

Продвинутый SQL

1 месяц

Далее
Merion Academy

Основы реляционных баз данных SQL

1 месяц

Далее

Решения вопроса 3

3 комментария

d'Ivan @2ord

По-моему, вопрос больше не столько о принципиальной возможности хранения, а про то как хранить метрики и как группировать и суммировать.

Написано более года назад
one2four @one2four Автор вопроса

Спасибо большое за ответы, разворачиваю тестовый стенд, буду тестировать.
В принципе хватит и 2 байта smallint.

Написано более года назад
one2four @one2four Автор вопроса

Иерокопус Таманский, Да вопрос в общем в этом. но пока как возможное решение пришел к паре сотен колонок, для того чтобы в одной выборке получить и топ 10 ключевых слов, и метрики. не усложняя запрос джоинами и вложенными запросами

Написано более года назад

Комментировать

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 418 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 310 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 122 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 276 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 126 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 174 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 188 просмотров
1

ответ
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 129 просмотров
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 259 просмотров
1

ответ
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 303 просмотра
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

я бы поднял тестовый стенд и проверил
их нужно хранить хранить в ненормальной форме

Чем обоснована такая странная "хотелка"?
Тут наперед сложно угадать какая из форм хранения информации будет более эффективной.

Эффект наверное зависит от большой совокупности факторов. Я-бы предложил просто
несколько экспериментов на синтетических данных.
mayton2019, one2four для time series лучше InfluxDB
https://ru.wikipedia.org/wiki/InfluxDB#:~:text=Inf...
Akina, пока другого решения не нашел. это нужно для выборки разом топ 10 ключевых слов с метриками
Таблица
name | rating | siteId | region | + 4 фильтра

SELECT name, SUM(rating), SUM(метрики) FROM table GROUP BY `name` ... limit 10;

если делать отдельную таблицу для метрик и делать джоин, то `rating` увеличивается в зависимости от строк правой таблицы, отчего топ будет неправильный
one2four

пока другого решения не нашел.

Вроде очевидная структура-то:

- идентификатор объекта
- идентификатор метрики
- значение метрики

Таблица
name | rating | siteId | region | + 4 фильтра

Как это соотносится со структурой, показанной в вопросе?

если делать отдельную таблицу для метрик и делать джоин, то `rating` увеличивается в зависимости от строк правой таблицы, отчего топ будет неправильный

Неправильный запрос даёт неправильный результат - что тут странного? составьте правильный запрос.
Akina,

Как это соотносится со структурой, показанной в вопросе?

в вопросе привел упрощенный пример того что есть, и задал вопрос, возможно ли хранить и обрабатывать 200+ колонок для записей больше 10млн. Так как хотел, чтоб не было заморочек с пониманием вопроса и ответом. Поэтому на ваш вопрос ответил уже с почти полной структурой, чтоб было понимание почему так сделано.

Неправильный запрос даёт неправильный результат - что тут странного? составьте правильный запрос.

правильный запрос будет содержать вложенный select с перебором десятков тысяч строк, поэтому хотелось бы чтоб был один запрос, который будет группировать ключевые слова по названию(по id названия), суммировать рейтинги, и 200+ метрик, фильтровать при необходимости по нескольким параметрам и сортировать по сумме рейтинга для вывода топ 10 ключевых слов.
one2four,
правильный запрос будет содержать вложенный select с перебором десятков тысяч строк

Это зачем, спрашивается? Как-то описание задачи ну совсем не тянет на подзапросы.

Вы бы показали пример данных - CREATE TABLE, оставить только 3-4 поля с метриками, INSERT INTO, с десяток записей, и значения только для оставленных метрик, требуемый результат для этих данных, ну и пояснения, как и почему посчитаны те или иные итоги.
Akina, спасибо за ответ, постарался описать подробно Как сделать sql запрос для показа топ 10 ключевых слов с группировкой и суммой метрик из другой таблицы?

Answer 1 · 2024-01-24 17:14:14

Смотрим здесь. Получаем для обычного INT 4 байта на одно число, для BIGINT 8 байт.
200 * 4 * 10'000'000 = 8'000'000'000 или 8Gb.
200 * 8 * 10'000'000 = 16'000'000'000 или 16Gb.
По нынешним меркам сущие пустяки.
Хранить, конечно же, нужно в нормальной форме, иначе суммирование придётся делать в приложении.

Answer 2 · 2024-01-24 17:09:42

Колоночные СУБД как раз для таких целей и есть.
Попробуй хранить в MariaDB ColumnStore в 200 колонок.

Answer 3 · 2024-01-24 21:22:27

Да, для хранения, добавления и чтения данных с анализом этот подход очень хорош, ценой незначительного для твоих объемов (кратного, Rsa97 все расписал) ты получишь огромный прирост производительности. Настоятельно рекомендую протестировать на тестовом стенде на своих данных, особенность хранения null записей в innodb и работа индесов с ними. Что лучше в твоем случае парный индекс в денормализованной форме или 200 индексов в нормальной можно будет определить только тестами (большая таблица может потребовать больше оперативной памяти на индексы).

Есть еще недостаток - если в таблице будет очень много данных, добавление и тем более удаление колонки будет проходить очень медленно, особенно если база данных в это время будет использоваться.

Можно ли в mysql хранить 200 колонок, для 10+млн записей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт