Как бы вы реализовали вычисление списка «любимых эмодзи» пользователя?

Question

EchoStan @EchoStan

PostgreSQL

Как бы вы реализовали вычисление списка «любимых эмодзи» пользователя?

Здравствуйте, друзья.
В инпуте чата полезно иметь строчку с любимыми эмодзи пользователя. Вроде такой:

Как сейчас это реализовано у меня
0. Для хранения любимых эмодзи пользователя используем отдельную небольшую таблицу:

CREATE TABLE top_used_emojis (
    user_id BIGINT PRIMARY KEY,
    emojis TEXT[] NOT NULL
);

1. Пользователь отправляет новое сообщение в чат.

2. Сообщение сохраняется в таблицу сообщений. Пусть будет chat_messages.

CREATE TABLE chat_messages (
    user_id BIGINT NOT NULL,
    text TEXT,
    ...
)

К таблице добавлен простейший индекс, на бумаге он обещал облегчать поиск по тексту.

CREATE INDEX chat_messages_text_index ON chat_messages (text);

3. В коде приложения выполняется простой поиск совпадений для того, чтобы определить: есть ли вообще в новом сообщении эмодзи.

4. Если эмодзи нет, то ничего не трогаем.

5. Если эмодзи найдены, из приложения вызывается pgplsql-функция, принимающая на вход user_id, вычисляющая топ-10 наиболее часто встречающихся эмодзи в текстах сообщений пользователя и сохраняющая результат в полеemojis таблицы top_used_emojis по ключу user_id.

В своей работе функция использует вспомогательную таблицу, где хранятся известные нам эмодзи

CREATE TABLE emojis (
    emoji TEXT PRIMARY KEY /* Здесь лежит сама эмодзи */
);

А вот и тело функции

CREATE OR REPLACE FUNCTION updateTopUsedEmojis (BIGINT) RETURNS TEXT[] AS '
    DECLARE
        _user_id ALIAS FOR $1;
        query_result TEXT[];

    BEGIN

            WITH last_top_used AS (SELECT emoji, count(*)::INT AS count
                                   FROM chat_messages cm
                                            JOIN emojis e
                                                ON (cm.text LIKE ''%'' || e.emoji || ''%'')
                                   WHERE cm.user_id = _user_id
                                   GROUP BY e.emoji
                                   ORDER BY count DESC
                                   LIMIT 10)
            INSERT INTO top_used_emojis (user_id, emojis)
            VALUES ( _user_id,
                     (SELECT array_agg(emoji) FROM last_top_used)::TEXT[]
            )
            ON CONFLICT (user_id)
            DO UPDATE
            SET emojis = (SELECT array_agg(emoji) FROM last_top_used)::TEXT[]
            RETURNING emojis::TEXT[]
        INTO query_result;

        RETURN query_result;

    END;
'LANGUAGE plpgsql;

6. Всё. На мелких объёмах это работает.

Необходимые уточнения

Начиная с какого-то момента, мы, понятно, будем выполнять эту процедуру не чаще, чем 1 раз в N времени. При добавлении каждого сообщения - это слишком.
"Любимые" и "наиболее часто встречающиеся" - не совсем одно и то же, но нам норм.
У меня пока некоторые трудности с EXPLAIN - seqscan, вроде, научился распознавать, а косты пока не косты.
Предполагаемое количество пользователей - 1млн, предполагаемое среднее количество сообщений у каждого пользователя - 100

Места, которые не дают мне покоя

Конкатенация в предложении FROM:
```
FROM chat_messages cm
                 JOIN emojis e
                        ON (cm.text LIKE '%' || e.emoji || '%')
```
Движок DML (или кто там внутре сидит) - он же как-то кэширует результаты этой самой конкатенации?
Может, стоит заранее заполнить таблицу emojis строчками '%...%'?
Оператор LIKE там же. Есть ли более производительные решения?

Вопрос задан более трёх лет назад
83 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее
Яндекс Практикум

Фулстек-разработчик

16 месяцев

Далее
REBRAIN

Greenplum в Yandex MPP Analytics for PostgreSQL

5 недель

Далее

Решения вопроса 1

2 комментария

EchoStan @EchoStan Автор вопроса
Дмитрий Беляев Здравствуйте.

хранящее количество использования каждого пересечения user с emoji и повесил бы на это поле DESC индекс

Я правильно понимаю, что user_id перестаёт быть уникальным ключом в таблице top_used_emojis?
То есть структура таблицы становится такой:

CREATE TABLE top_used_emojis ( user_id BIGINT, emoji TEXT, usages_count INT ); ALTER TABLE top_used_emojis ADD PRIMARY KEY (user_id, emoji); CREATE UNIQUE INDEX *** ON top_used_emojis (user_id, emoji, usages_count DESC)

и мы извлекаем значение запросом

SELECT emoji FROM top_used_emojis WHERE user_id = $1 ORDER BY usages_count DESC LIMIT 10?
Написано более трёх лет назад
Дмитрий Беляев @bingo347
EchoStan, да, только второй индекс по 1 полю и не уникальный:
CREATE INDEX *** ON top_used_emojis (usages_count DESC)
Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 221 просмотр
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 131 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 255 просмотров
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 314 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 252 просмотра
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 619 просмотров
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 284 просмотра
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 366 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 192 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Почему Postgre через pg_stat_activity не показывает запросы?
- 2 подписчика
- 26 дек. 2025
- 178 просмотров
0

ответов
Показать ещё Загружается…

BackEnd - Разработчик Laravel

Hpace • Томск

от 150 000 до 250 000 ₽

Middle Java Developer

ИТРУМ • Ростов-на-Дону

от 150 000 ₽

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

Answer 1 · 2020-09-13 21:47:30

Я бы сделал в таблице top_used_emojis поле хранящее количество использования каждого пересечения user с emoji и повесил бы на это поле DESC индекс а в Primary пихал бы поля user_id и emoji вместе.
На таблицу chat_messages повесил бы тригеры для пересчета количества в top_used_emojis
Ну и выводил бы это простым ORDER BY по индексу с лимитом

Answer 2 · 2020-09-13 15:13:03

Дай пользователю самому выбрать любимые эмодзи. Задолбали ваши алгоритмы, знающие лучше меня что мне надо.

Answer 3 · 2020-09-13 14:53:18

А не лучше ли хранить их в одном поле в JSON? Например, сделать два поля - mostUsed (наиболее часто использующиеся) и recentlyUsed (последние использованные, чтобы на основании этих данных новые использующиеся эмодзи могли попасть в mostUsed). ИМХО для такой функциональности не стоит заводить отдельную таблицу.

P.S. Ну и конечно хранить количество (а лучше - частоту встречаемости) случаев использования, чтобы либо добавлять в mostUsed, либо убирать оттуда в пользу эмодзи из recentlyUsed.

Как бы вы реализовали вычисление списка «любимых эмодзи» пользователя?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт