Как исправить долгое выполнение запросов на большой таблице?

Question

Kumatoz48 @Kumatoz48

MySQL
JSON

Как исправить долгое выполнение запросов на большой таблице?

Есть сервер MySQL 8 версии. В простой БД два поля - id и data. У поля data тип JSON. В нем хранятся данные, получаемые из нескольких форм. Т. е. данные из формы преобразуются в JSON и сохраняются в БД.

Проблема в том, что данных планируется довольно много. При тестировании простейшего запроса

SELECT * FROM table WHERE data = "{'field1':'value', 'field2':'value','field3':'value'.....}"

в случае, когда записей в таблице порядка 10 миллионов время выполнения запроса на локальной машине составляет в районе 30 секунд. Есть ли способы ускорить или посоветуйте варианты, возможно вся логика неправильная и можно сделать более грамотно.

Вопрос задан более двух лет назад
255 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Айнур Бирдин @kalsc12345

ALTER TABLE `table` ENGINE=InnoDB;
ALTER TABLE `table` ADD FULLTEXT INDEX `idx_data_fulltext` (`data`);
SELECT * FROM `table` WHERE MATCH (`data`) AGAINST ('value');
Так не сойдет?

Написано более двух лет назад
Kumatoz48 @Kumatoz48 Автор вопроса

Айнур Бирдин, я правильно понял, что в Вашем примере будет искать только конкретное значение внутри JSON? Задача избежать дублирования данных их формы в БД. Т. е. если в БД уже есть точно такие же данные, как введены в форму, то не создавать новую запись. Поэтому нужно чтобы все значения внутри JSON в БД соответствовали JSON из формы. Если я понял неправильно, поправьте, пожалуйста.

Upd.
Строка
ALTER TABLE `table` ADD FULLTEXT INDEX `idx_data_fulltext` (`data`);
выдает ошибку
#3152 - JSON column 'data' supports indexing only via generated columns on a specified JSON path.

Написано более двух лет назад
Rsa97 @Rsa97
Kumatoz48, Для начала, вам придётся гарантировать, что все JSON'ы отформатированы абсолютно одинаково. Вот вам два JSON'а, содержащих одно и то же:

{"field1":"ааа","field2":"ббб"} { "field2": "\u0431\u0431\u0431", "field1": "\u0430\u0430\u0430" }
Написано более двух лет назад
Kumatoz48 @Kumatoz48 Автор вопроса

Rsa97, это подразумевается по-умолчанию.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Решения вопроса 2

3 комментария

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

3 комментария

Kumatoz48 @Kumatoz48 Автор вопроса

В формах разное число полей. Вы предлагаете делать для каждого поля формы свое поле в БД? Т. е. сделать в таблице поля field1, field2, field3...? А если появится новая форма - нужно будет в БД добавлять поля? Я не прошу готовое решение, я прошу направление, в котором нужно копать, чтобы эту задачу решить.

Написано более двух лет назад
sharpsss @sharp97

Kumatoz48, у каждого поля разные типы данных или как? Если да то под каждый тип данных сделать свои поля и добавлять в них инфу, а инфа ещё на формы делится должна ? Я без понятия зачем вам это, но если так нужно можете сделать ещё поле id формы, то есть айди формы и данные, если же хотите именно с JSON что-то доработать то делайте более точную выборку , это чуть улучшит ситуацию, погугли json_table / json_extract

Написано более двух лет назад
Сергей delphinpro @delphinpro
Kumatoz48,

В формах разное число полей.

ну и что?

forms id | name fields id | form_id | name | value

вот вам любое количество полей в любой форме
Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 193 просмотра
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 561 просмотр
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 325 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 125 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 296 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 127 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 176 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 195 просмотров
1

ответ
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 131 просмотр
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 261 просмотр
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

ALTER TABLE `table` ENGINE=InnoDB;
ALTER TABLE `table` ADD FULLTEXT INDEX `idx_data_fulltext` (`data`);
SELECT * FROM `table` WHERE MATCH (`data`) AGAINST ('value');
Так не сойдет?
Айнур Бирдин, я правильно понял, что в Вашем примере будет искать только конкретное значение внутри JSON? Задача избежать дублирования данных их формы в БД. Т. е. если в БД уже есть точно такие же данные, как введены в форму, то не создавать новую запись. Поэтому нужно чтобы все значения внутри JSON в БД соответствовали JSON из формы. Если я понял неправильно, поправьте, пожалуйста.

Upd.
Строка
ALTER TABLE `table` ADD FULLTEXT INDEX `idx_data_fulltext` (`data`);
выдает ошибку
#3152 - JSON column 'data' supports indexing only via generated columns on a specified JSON path.
Kumatoz48, Для начала, вам придётся гарантировать, что все JSON'ы отформатированы абсолютно одинаково. Вот вам два JSON'а, содержащих одно и то же:

{"field1":"ааа","field2":"ббб"} { "field2": "\u0431\u0431\u0431", "field1": "\u0430\u0430\u0430" }
Rsa97, это подразумевается по-умолчанию.

Answer 1 · 2023-05-19 15:14:07

возможно вся логика неправильная и можно сделать более грамотно.

Штирлиц шел по Берлину, и не мог понять, что выдавало в нем русского шпиона - то ли рация за спиной, то ли волочащийся сзади парашют, то ли болтающийся на груди ППШ.

когда записей в таблице порядка 10 миллионов время выполнения запроса

ВНЕЗАПНО оказалось, что если использовать микроскоп для забивания гвоздей, то в него становится почему-то плохо видно.

В простой БД два поля - id и data. У поля data тип JSON. В нем хранятся данные, получаемые из нескольких форм.

Но вы же, когда эту, с позволения сказать, "базу данных" проектировали, ведь радовались своему остроумию и хитрости? Зачем проектировать структуру базы данных, делать какие-то таблицы, между таблицами связи. потом сложные запросы писать? Если можно хопа, и в джейсон все кучей навалить!

Ну вот и продолжайте радоваться дальше.

Сама по себе дурацкая проблема проверки уникальности длинного текста решается элементарно, добавляется колонка с md5 от содержимого, и поиск делается по ней.
Но ведь в таблицу эти данные складываются не только чтобы проверять их на уникальность. И собственно какая-то работа с этими данными все равно превратится в боль

Answer 2 · 2023-05-19 15:19:54

Фактически выполняется сравнение двух длинных BINARY значений, причём при полнейшем отсутствии какого-никакого индекса. Чё б ему не тормозить?

В качестве решения предлагаю изменить тип поля на TEXT и добавить CHECK, а также индекс по значению.

CREATE TABLE test (
    id INT PRIMARY KEY,
    data TEXT CHECK (JSON_VALID(data)), 
    INDEX idx_data (data(100))   -- подогнать до разумного
);

DEMO (см. время выполнения запросов).

Answer 3 · 2023-05-19 16:09:19

Только вчера чистил битриксовскую b_form_result_answer, где за пять лет набежало 10 миллионов записей.
Как это сделано в Битриксе:
- таблица result, где пишется, кто заполнил форму, и ее идентификатор
- таблица списка полей формы по ее идентификатору
- таблица заполненных полей с идентификатором поля и ответа
Да, тоже неторопливо, когда нужно поискать что-то, потому что постоянно приходится джойнить.
Но уж не JSON.

А задача повторов, действительно, решается просто хэшем, о чем вам сразу специалист и сказал.

Answer 4 · 2023-05-19 15:17:13

sharpsss @sharp97

не фонтан но брызги есть

Согласен с Ипатьевым, вам надо сносить JSON и делать таблицы и связи по человечески и всё будет норм

Ответ написан более двух лет назад

3 комментария

Как исправить долгое выполнение запросов на большой таблице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт