Как оптимизировать базу данных?

Question

EvgeniyMich @EvgeniyMich

Как оптимизировать базу данных?

Есть высоко нагруженная БД для букмекерской конторы. В которой ежесекундно обновляются тысячи событий.

Событие = матч
В событии есть много различных коэффициентов. Победа первой команды, победа второй, Тоталы и т.д. Таких рынков коэффициентов порой доходит до тысячи.

Основной вопрос это архитектурный.
На данный момент у каждого события есть столбец longtext, где хранится огромный JSON со всеми рынками коэффициентов.

Вот хотелось бы понять как построить более производительную архитектуру. Продолжить ли хранить все коэффициенты в JSON, или создать отдельную таблицу где будут храниться все коэффициенты всех событий по отдельности. т.е. если у события 900 типов коэффициентов то создать 900 строк в новой таблице, куда их всех записать.

По поводу выборки по JSON то она не нужна.

Тут еще интересует не мало важный момент постоянного обновления коэффициентов. Если JSON можно просто обновить, то тут придется зацепить все 900 коэффициентов, сравнить их с новыми, и если они не совпадают то заменить. Запросов к БД получится огромное множество.
Конечно было бы намного удобнее если всё разделить, но будет ли это быстрее чем отправить один жирный запрос?

Тут еще суть в том что событий могут быть тысячи, а у каждого события коэффициентов под тысячу, и в добавок всё это обновляется очень часто ~2-5 сек. (сила парсеров =))

Коротко о БД: Postgres расположенная в RDS amazon

Вопрос задан более трёх лет назад
709 просмотров

2 комментария

Подписаться 3 Средний 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 245 просмотров
4

ответа
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 201 просмотр
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 132 просмотра
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 122 просмотра
1

ответ
PostgreSQL

Средний
VACUUM в PostgreSQL 15 уже несколько суток в фазе vacuuming indexes что можно сделать?
- 6 подписчиков
- 27 авг.
- 889 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Почему увеличилась генерация WAL-сегментов?
- 1 подписчик
- 21 авг.
- 174 просмотра
1

ответ
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 307 просмотров
0

ответов
PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 82 просмотра
0

ответов
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 186 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 149 просмотров
0

ответов
Показать ещё Загружается…

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Senior DevOps Engineer / Инженер по инфраструктуре / SRE

Hunt Rangers • Москва

от 440 000 ₽

Если JSON можно просто обновить, то тут придется зацепить все 900 коэффициентов, сравнить их с новыми, и если они не совпадают то заменить.
Часто ли количество коэффициентов меняется или относительно постоянно?

На данный момент у каждого события есть столбец longtext, где хранится огромный JSON со всеми рынками коэффициентов.
Какой механизм обработки структуры такого блоба?
EvgeniyMich, из вашего описания ничего не понятно

json меняется целиком или по полю?
зачем вообще пишется в базу? какие там есть запросы на чтение и насколько активные?

Answer 1 · 2020-05-15 17:33:29

Тут сложно сказать наверняка. Стоит хотябы добавить порядки нагрузок на базу, какой инстанс используете на каких дисках, какая это часть нагрузки на весь сервер и все в таком духе. Кроме того это AWS RDS - всегда можно подкинуть ресурсов и Read Replca.

По структуре данных - всегда можно нормализовать записи и разбить на нормальные таблицы. Если у вас нет какого-то серьезного поиска по этой таблице то вообще можно вынести в DynamoDB.

Опций реально много

Answer 2 · 2020-05-16 00:31:10

Блоб по которому вы не ищете нет смысла нормализовать. Если сравнения, выборки и и сортировки по нему не производятся, а данные участвуют только в логических операциях вне БД, нормализация и перепроектировка не требуется.

Answer 3 · 2020-05-16 13:22:52

Если у вас слишком большая таблица получаются, то вам поможет партицирование https://postgrespro.ru/docs/postgresql/10/ddl-part... Тогда UPDATEs станут быстрее работать, ибо id будет искаться не во всей таблице, а в конкретной секции. Если Postgres будет все-равно задыхаться под кол-во запросов, то придется применить шардирование. Завести еще один или несколько инстансов бд, в одной например будет таблица с матчами из Москвы, а в другой из Краснодара. Как выбрать ключ шардирования(по городу, региону, id, хэшу от чего-то и т.д) только вы можете решить исходя из бизнес логики и объема данных.

Если вы переписываете JSON целиком и не ищете в нем ничего, то смысла выносить в отдельные колонки нет.

Answer 4 · 2020-05-16 16:24:33

Из того что автор описал - у меня возникает архитектурный вопрос. Кто придумал - использовать JSON для данных которые часто обновляются? Это - антипаттерн. Вы какое железо не поставте - у вас будет плохой перформанс.

Вам необходимо все данные которые имеют реляционный (точечный) доступ убрать из JSON. По сути - развалить его на модель EAV или что-то вроде того (Relational Data (RD)). Обновления станут быстрее. А для отчотности - если вам так уж важен JSON - отдельные джобы которые будут переливать данные из RD в JSON или формировать его на лету средствами клиента. В этом случае у вас не будет накладных расходов даже на хранение.

Answer 5 · 2020-05-17 04:15:38

Частообновляющийся json/jsonb может существенно отжирать дисковое пространсто, необходимо агрессивно вакуумировать. В облаке вероятно это может быть незаметно, но это создает неоптимальную нагрузку на PG.
Возможно стоит пересмотреть архитектуру сбора данных. В зависимости от характера нагрузки, но к примеру если у вас событие длится конечное время, можно писать частообновляющиеся данные в память(например в Redis). А когда событие окончится - дампить в базу. Таким образом извлечение данных за прошедшие события будет оптимальным, и запись в postgresql будет оптимальная.

Как оптимизировать базу данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт