Будет ли полезно сжатие справочником JSON domain-specific words?

Question

mayton2019 @mayton2019

Bigdata Engineer

Будет ли полезно сжатие справочником JSON domain-specific words?

Бизнес гоняет из Редиса во фронт 10 килобайтные JSON документы которые состоят из всякого пенопласта.
Редис - лопается от объема и мы ему растягиваем память периодически. До 30 Гб дотянули кажется.

Документ содержит порядка 50 полей. Из них штук 5 - текстовые. Содержат описание товара. Обычно унылое
и однообразное. Содержат состав (химический). Эти 5 полей являются основными потребителями объема.

Я вот прикинул если я составлю справочних этих популярных слов то 80% этого пенопласта уйдет.
Остался пустяк - как сокращения придумать. Обратил внимание что спектр Unicode символов мы даже
близко полностью не используем. Там есть резервированные диапазоны. И я вот думаю если
я создам справочник из domain-specific words (DSW) то я как раз смогу уменьшить потребление редиса.

Еще остался пустяк. Научить фронт расшифровывать такие строки с сокращениями. Это у меня слабое место.

Вот. Что думаете?

UPD: Собрал гистограмму слов. Фильтровал слова длинее чем 5 символов. Топ слов по частоте за всю базу
редиски.

strong ; 11821
Ingredients ; 10320
ingredients ; 9825
formaldehyde ; 9430
formulated ; 8342
product ; 8224
Ingredient ; 7752
Callouts ; 7669
without ; 7567

Вопрос задан более трёх лет назад
84 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Java-разработчик: тариф PRO

8 месяцев

Далее
ProductStar × РБК

Python и Django: бэкенд-разработка

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл. 2025
- 364 просмотра
3

ответа
Python

+1 ещё

Простой
Как выбрать нужный ответ из JSON файла?
- 2 подписчика
- более года назад
- 337 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как указать путь в JS к json-файлу, чтобы он учитывался при сборке (parcel js)?
- 1 подписчик
- более года назад
- 108 просмотров
1

ответ
JSON

+2 ещё

Простой
Как перевести строки в json с простейшей структурой на другие языки используя нейросети или API?
- 2 подписчика
- более года назад
- 1267 просмотров
3

ответа
Telegram

+1 ещё

Средний
Как дарить подарки через своего бота в телеграмм?
- 1 подписчик
- более года назад
- 704 просмотра
1

ответ
JSON

+1 ещё

Простой
Как правильно записать список из словарей в JSON файл?
- 1 подписчик
- более года назад
- 201 просмотр
1

ответ
Python

+1 ещё

Простой
Как свободно ходить по дереву json в обоих направлениях?
- 1 подписчик
- более года назад
- 346 просмотров
1

ответ
PHP

+1 ещё

Простой
API Yandex. Как исправить ошибку в запросе?
- 1 подписчик
- более года назад
- 138 просмотров
1

ответ
JSON

+1 ещё

Простой
Ошибка: json.decoder.JSONDecodeError: Expecting value: line 18 column 19 (char 348). В чём проблема?
- 1 подписчик
- более года назад
- 96 просмотров
1

ответ
Сжатие данных

Простой
Почему не существует туннеля в котором трафик сжимается?
- нет подписчиков
- более года назад
- 227 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2023-06-28 00:06:46

На вид геморрой какой-то самопальный себе заботу и приключение потом надолго. Я знаю архиваторы еще, может даже какое-то проф-решение есть. Я как-то делал JSON-ну: JSON_UNESCAPED_UNICODE + gzcompress чтобы уменьшить, и очень неплохо вышло.

Answer 2 · 2023-06-28 07:06:41

Остался пустяк - как сокращения придумать.

не надо сокращения, достаточно пары байт
штук 5 бит отвести на признак замены а остальное - на ID замененного куска текста
и CRC для проверки что все корректно расшифровано
PS: хотя обычно это делают уровнем ниже, архивацией всего потока даннных при пересылке

Answer 3 · 2023-06-28 09:15:24

Эти

domain-specific words

можно генерировать автоматически, исходя из их количества, кодируя Base62. Такой словарь можно передавать на фронт-энд при инициализации. Его можно даже в CDN выдавать, если он статический.

Будет ли полезно сжатие справочником JSON domain-specific words?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт