Бизнес гоняет из Редиса во фронт 10 килобайтные JSON документы которые состоят из всякого пенопласта.
Редис - лопается от объема и мы ему растягиваем память периодически. До 30 Гб дотянули кажется.
Документ содержит порядка 50 полей. Из них штук 5 - текстовые. Содержат описание товара. Обычно унылое
и однообразное. Содержат состав (химический). Эти 5 полей являются основными потребителями объема.
Я вот прикинул если я составлю справочних этих популярных слов то 80% этого пенопласта уйдет.
Остался пустяк - как сокращения придумать. Обратил внимание что спектр Unicode символов мы даже
близко полностью не используем. Там есть резервированные диапазоны. И я вот думаю если
я создам справочник из domain-specific words (DSW) то я как раз смогу уменьшить потребление редиса.
Еще остался пустяк. Научить фронт расшифровывать такие строки с сокращениями. Это у меня слабое место.
Вот. Что думаете?
UPD: Собрал гистограмму слов. Фильтровал слова длинее чем 5 символов. Топ слов по частоте за всю базу
редиски.
strong ; 11821
Ingredients ; 10320
ingredients ; 9825
formaldehyde ; 9430
formulated ; 8342
product ; 8224
Ingredient ; 7752
Callouts ; 7669
without ; 7567