Как грамотно построить sql-запросы в высоко-нагруженных базах?

Question

sl0 @sl0

Как грамотно построить sql-запросы в высоко-нагруженных базах?

1. Есть таблица на несколько миллионов пользователей, а также есть таблица с названиями фильмов. Нужно выбрать пары пользователей, у которых есть хотя бы 7 общих фильмов. Думаю сделать отдельные таблицы для пользователей и для фильмов и связать их many-to-many. Это оптимальная архитектура или можно придумать что-нибудь лучше? И как в таком случае должен будет выглядеть оптимальный sql-запрос к базе?

2. Нужно выбрать пользователей из определенного города, со статусом active, и у которых минимум 4 фильма. Опять же, какой запрос будет оптимален?

3. Есть таблица логов, где хранятся данные о том когда пользователь был active (два timestamp - 1. стал active 2. перестал быть active). Надо подсчитать сколько было активных пользователей за определенный период времени.

Все осложняется тем, что данных много и запросов тоже может быть много, нужно с этим справиться.

Вопрос задан более трёх лет назад
2576 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

sl0 @sl0 Автор вопроса

2. Active - bool, да.
3. Думаю что есть, но пока сам его не вижу.

Написано более трёх лет назад
Александр Филиппенко @alexfilus

1. Сейчас подумал что это идеальная задача для СУБД на графах. Правда что будет.с временем ответа сложно сказать.
2. В общем нужен триггер на таблицу связей, который будет записывать актуальное количество фильмов для каждого юзера в специальное поле в таблице users,
и индекс CREATE INDEX idx_boost_second on users (city_id, cnt_films) where active = true;

Написано более трёх лет назад
Александр Филиппенко @alexfilus

Так же можно создать поле - массив фильмов, и с помощью этого расширения https://www.postgresql.org/docs/current/intarray.html вычислять пересечения массивов у тех, у кого в принципе больше 7 фильмов, и смотреть на длину этих пересечений

Написано более трёх лет назад

4 комментария

Александр Филиппенко @alexfilus

для этого и придумали частичные индексы

Написано более трёх лет назад
AlexBergal @AlexBergal

Александр Филиппенко, а каким боком тут будет прикручен частичный индекс для boolean поля ?
и что остановит бд от пересчета индекса при апдейте 1й записи?

или речь про какие то другие частичные символы?

Написано более трёх лет назад
Александр Филиппенко @alexfilus

AlexBergal, https://postgrespro.ru/docs/postgrespro/9.6/indexe...
я про это.
Делаем индекс с условием where active = true и он во-первых меньше, во-вторых точно применится, если такое же условие будет в запросе, в-третьих он будет пересчитываться только при изменениях в строках попадающих под это условие.

Написано более трёх лет назад
AlexBergal @AlexBergal

в-третьих он будет пересчитываться только при изменениях в строках попадающих под это условие.

что частичный, что не частичный - индекс будет перестраиваться постоянно, с появлением нового активного пользователя, или прекращением активности у активного.
на большом количестве данных эта оперерация будет очень дорогая.

логичней сделать workaround, еще одну таблицу, где будет только 1 колонка - ид активного пользователя

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 67 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 440 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 335 просмотров
6

ответов
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-05-13 19:54:43

1. Правильно думаете, только если Вы ищите такие пары среди ВСЕХ пользователей и ВСЕХ фильмов, то тут не обойдётся без полного сканирования всех 3 таблиц. Поможет кеширование, либо функциональные индексы, либо какие-то сводные таблицы управляемые триггерами или materialized view.
2. Active это bool или статус из списка? В любом случае тут нужен индекс по city_id и либо по полю active, либо частичный индекс where active = true. (надеюсь у Вас PostgreSQL)
3. Просто where с 2 условиями? Или есть подвох?

Запросы сложными тут быть не должны, но нужно предусмотреть правильные индексы чтобы это работало быстро.
Если нужна помощь именно с запросами, создайте https://www.db-fiddle.com/ с примерами данных, хотя бы строк по 10, чтобы ясна было структура

Answer 2 · 2020-05-14 11:07:51

Ид активных пользователей надо хранить отдельно. Иначе пересчитывать постоянно индекс по этому полю будет лютая смерть

Answer 3 · 2020-05-14 20:39:11

1-2 Попробуйте графовые СУБД. Они лучше походят для взаимосвязанных сущностей.
guides.neo4j.com/sandbox/recommendations
3. Наверное, аналитические СУБД.

Как грамотно построить sql-запросы в высоко-нагруженных базах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт