Какие БД используют крупнейшие торговые сети для хранения заказов?

Question

Artikul2 @Artikul2

Базы данных

Какие БД используют крупнейшие торговые сети для хранения заказов?

Стало интересно, такие гиганты, типа Магнит, МВидео, Пятерочка, где по всей стране множество магазинов одновременно сохраняют данные покупки (состав покупки, цены, скидки) и это достаточно оперативно становится доступно для просмотра клиентом в приложении - какие используют БД для сохранения покупок?
С одной стороны магазины используют OLAP, ведь им надо делать аналитику, с другой стороны OLTP, потому что нужные "четкие и точные" данные транзакций.
Я полагаю, что такие магазины сохраняют всё, например в postgres или greenplum, а затем передают в аналитические базы (или пишут параллельно), типа в кликхаус или oracle?
Также, я думаю, что множество магазинов могут быть обслуживаться отдельными кластерами, чтобы работа всей сети не остановилась, если какая та БД выйдет из строя?
Я прав? Буду рад ссылкам на чтиво.

Вопрос задан более года назад
18266 просмотров

3 комментария

Подписаться 6 Простой 3 комментария

alexalexes @alexalexes

Ну, вы и так ответили на свой вопрос, какие книги искать.
Проблема в том, что вам никто не ответит про конкретику.
Все инструменты на слуху и они в открытом доступе, а как они настроены, чтобы образовывать информационную сеть предприятия для оптимального решения бизнес задач (читай оптимального извлечения прибыли), эта информация является коммерческой тайной.

Написано более года назад
shurshur @shurshur

Дело скорее даже не в коммерческой тайне, а в исключительной узости решений, которые используются в частной имплементации под частные условия с частным уровнем нагрузок. Так-то подобные вещи бизнесы иногда даже рассказывают на разных конференциях или в технических блогах.

При этом иногда могут изобретать разного рода кадавров, например, часть данных класть в кликхаус, а часть - в кассандру - в зависимости от типа данных и сценария их использования. Причём могут и одни и те же данные туда класть, для использования в разных задачах.

В моей практике был такой случай: нужно было под какую-то задачу иногда выгружать какие-то сведения о данных за прошедшие полгода, DBA там какую-то автогенерируемую таблицу соорудили, которая на тестах нормально работала, а на проде сильно медленно, в итоге сделали репликацию нужных данных с помощью nifi в кликхаус, где нужная задача решалась весьма эффективно.

Написано более года назад
satun @satun

Ты видел через что оформляют продажи в DNS?) Поскольку наши сети начали работать давно там такой мрак может быть

Написано более года назад

Решения вопроса 3

10 комментариев

Saboteur @saboteur_kiev

В появлением NoSQL и стриминговых систем - пришлось всем признать что реляционка
исчерпала возможность линейного роста.

Как-то бредово.
Просто есть данные, которые удобнее хранить в nosql, а есть данные которые отлично хранятся в реляционке. И тут дело не в росте. Условная монга и условный mysql не конкуренты друг другу. Для заказов реляционка реально проще и удобнее.

Написано более года назад
mayton2019 @mayton2019

Saboteur, изучайте те кейсы, когда реляционка не подошла.
Их мало. И они как раз относятся к штучным продуктам под высокой нагрузкой.

Написано более года назад
Vitsliputsli @Vitsliputsli

Saboteur, не так уж и бредово, NoSQL показали, что есть альтернативы, не универсальная замена, конечно, но сами реляционные модель и СУБД уже давно плохо применимы для нагруженных систем. Т.е. теоретически все прекрасно, на практике железо не вывозит. Никто уже строго не следует реляционной модели, наоборот каждый раз думаешь, где еще ее можно нарушить, чтобы разгрузить систему (те же json и т.п.). Что касается реляционных СУБД, для них всегда был стандартом ACID, но по факту никогда не выполнялся. Консистентность соблюдается только частично, внутри СУБД уже забили на foreign keys, а на уровне системы консистентности вообще нет в момент времени, из-за множества ДЦ. Изолированность только условная, потому что serializable напрочь убивает всю производительность. Атомарность присутствует номинально, просто потому, что мы вынуждены писать максимально короткие транзакции, а изза этого Устойчивость как бы существует, но далеко не всегда поможет, т.к. все реализовано в обход. OLTP и OLAP это не просто способы организации БД, это утверждение "либо так, либо так, вместе не умеем", поэтому когда нужна система совмещающая обе функциональности появляется огромное кол-во проблем и ограничений при ее реализации. Поэтому, на практике если и применяют реляционные СУБД для высокой нагрузки, то уж точно, не потому что они хороши.

Написано более года назад
mayton2019 @mayton2019

Про RocksDb ошибочка вышла у меня. Конечно не R+Tree а B+Tree.
А то я с географией спутал.

Написано более года назад
Saboteur @saboteur_kiev

mayton2019, Я ж о том и говорю. Что nosql это не замена, просто раньше кроме реляционки не было вариантов, поэтому использовали что было. А те проекты, где подходит nosql, понятно что сразу получили преимущество.

Vitsliputsli
не так уж и бредово, NoSQL показали, что есть альтернативы, не универсальная замена, конечно, но сами реляционные модель и СУБД уже давно плохо применимы для нагруженных систем.

Отлично реляционные СУБД подходят для нагруженных систем. Просто не нужно путать когда для проекта подходит реляционная база, или другая. Это явно зависит не от "нагруженности", а от типа данных и архитектуры.
Некоторые вот даже TSDB путают с реляционкой.

Написано более года назад
mayton2019 @mayton2019

Как я уже писал - решением будет не одна какая-то СУБД а Grid.
Поэтому я нигде не никому не запрещаю РСУБД. Я просто говорю
что мир - очень сложен. И тема топика звучит как

Какие БД используют крупнейшие торговые сети для хранения заказов?

Заказ может лежать в реляционной БД вполне себе хорошо.
В Oracle, MSSQL, DB2.

Но это - не полный ответ по стеку технологий.

Написано более года назад
Vitsliputsli @Vitsliputsli

Saboteur,
Отлично реляционные СУБД подходят для нагруженных систем. Просто не нужно путать когда для проекта подходит реляционная база, или другая. Это явно зависит не от "нагруженности", а от типа данных и архитектуры.
Некоторые вот даже TSDB путают с реляционкой.

Ага, отлично подходят, если не хранить много данных, и отказаться от большей части требований реляционнной модели. Речь не о том, что есть другое идеальное решение, речь о том, то что хотя они используются, это не значит, что они "отлично подходят". Будь оно так, то не внедряли бы зоопарк из различных решений, чтобы компенсировать проблемы реляционных СУБД.
И еще как выбор СУБД зависит от нагрузки, потому что вся архитектура зависит от нагрузки. Если это было не так, то мы бы всегда строго соблюдали реляционную модель, выставили бы serializable, писали бы транзакции как удобно нам, а не СУБД, и просто взяли бы бесконечно мощный 1 сервер с любой реляционной СУБД.

Написано более года назад
Saboteur @saboteur_kiev

Vitsliputsli, В том то и дело, что если, как вы говорите, "реляционки себя исчерпали" и "сами реляционные модель и СУБД уже давно плохо применимы для нагруженных систем.", то почему тогда не юзают просто новую модель nosql субд?
Были бы реляционки однозначно плохи в высоконагруженных системах, юзали бы новую какую-то субд, нереляционную и она бы заполонила весь мир. Но мы видим, что все еще "внедряли бы зоопарк из различных решений, чтобы компенсировать проблемы реляционных СУБД."

Реляционки делают свою задачу, и если нужно ее делать быстро, ищутся решения для адаптации (кластеризация, шардизация)
nosql решают свою задачу, и если нужно ее делать быстро, то тоже самое - адаптируют через кластеризацию, шардизацию и так далее.

Короче я прикопался к вашему утверждению, что "высоконагруженное это не для sql"

Написано более года назад
Vitsliputsli @Vitsliputsli

Saboteur,
Короче я прикопался к вашему утверждению, что "высоконагруженное это не для sql"

Не-не, не так. Скорее "хорошего решения нет, поэтому используем то, что есть". И часто это будет sql.

Реляционки делают свою задачу, и если нужно ее делать быстро, ищутся решения для адаптации (кластеризация, шардизация)

Кластеризация или репликация помогут с чтением, но с записью никакого выигрыша. А шардирование не всегда применимо. Если к примеру, есть достаточно большая БД, что уже началась сильная деградация, а критерий шардирования не выбрать, то масштабировать не получится. Но это не значит, что можно будет в любой ситуации заменить nosql с бесконечным линейным расширением.

Написано более года назад
Saboteur @saboteur_kiev

"хорошего решения нет, поэтому используем то, что есть". И часто это будет sql.

эх. В свое время данные просто хранили в текстовых файлах, поэтому для меня базы данных до сих пор это крутая штука. а sqlite это же находка.

Написано более года назад

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 79 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 162 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4811 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 378 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 207 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 142 просмотра
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 221 просмотр
1

ответ
Базы данных

Простой
Какие есть утилиты для автоматизированного проектирования БД?
- 3 подписчика
- 02 апр.
- 2761 просмотр
5

ответов
Базы данных

Простой
RBAC: когда создавать нового пользователя в ДБ?
- 2 подписчика
- 26 февр.
- 202 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Какую скачать СУБД для БД SQlite?
- 1 подписчик
- 15 янв.
- 526 просмотров
5

ответов
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Ну, вы и так ответили на свой вопрос, какие книги искать.
Проблема в том, что вам никто не ответит про конкретику.
Все инструменты на слуху и они в открытом доступе, а как они настроены, чтобы образовывать информационную сеть предприятия для оптимального решения бизнес задач (читай оптимального извлечения прибыли), эта информация является коммерческой тайной.
Дело скорее даже не в коммерческой тайне, а в исключительной узости решений, которые используются в частной имплементации под частные условия с частным уровнем нагрузок. Так-то подобные вещи бизнесы иногда даже рассказывают на разных конференциях или в технических блогах.

При этом иногда могут изобретать разного рода кадавров, например, часть данных класть в кликхаус, а часть - в кассандру - в зависимости от типа данных и сценария их использования. Причём могут и одни и те же данные туда класть, для использования в разных задачах.

В моей практике был такой случай: нужно было под какую-то задачу иногда выгружать какие-то сведения о данных за прошедшие полгода, DBA там какую-то автогенерируемую таблицу соорудили, которая на тестах нормально работала, а на проде сильно медленно, в итоге сделали репликацию нужных данных с помощью nifi в кликхаус, где нужная задача решалась весьма эффективно.
Ты видел через что оформляют продажи в DNS?) Поскольку наши сети начали работать давно там такой мрак может быть

Answer 1 · 2024-07-02 21:46:49

Я полагаю, что такие магазины сохраняют всё, например в postgres или greenplum, а затем передают в аналитические базы (или пишут параллельно), типа в кликхаус или oracle?

XX век прошел под флагом реляционных СУБД. Вокруг них строились все системы.
Для любой банковской системы БД - абсолютная царица дизайна. Именно от нее шло
техническое задание. От базы а не от Хибернейта и синтетических таблиц как щас.
Таблицы любили. Вокруг них строили красивые теории. Модели. EAV. Подгоняли
аппарат алгебры (Эдгар Кодд со своими формочками).

В появлением NoSQL и стриминговых систем - пришлось всем признать что реляционка
исчерпала возможность линейного роста. У Майкла Стоунбрейкера есть статья где
он меряет БД под нагрузкой и доказывает что треть ресурсов CPU просто сгорает
в блокировках и защелках и прочих механизмах синхронизации.

Какой софт использует розничная торговля - сложно сказать. Там будет десяток систем которые
работают просто всместе как Grid. Например сообщения от кассовых аппаратов и платежных
систем могут в первую очередь падать в JMS/MQ систему. А уже потом процесситься и ложиться в
БД операционного дня. И по проишествии периода - сливаться Warehouse и в BigData
Есть еще вариант что в аналитику сразу попадают данные со стриминга. Я такое видел.
И это не последняя часть стека. Аналитика в свою очередь является источником для всяких
BI, витрин данных. ОЛАП-кубиков и прочее что любят смотреть и показывать на презентациях.
С красивой инфографикой.

Что использует Магнит - чорт его знает. Это можно поискать по всяким конференциям. Но само
знание или название продуктов вам ни о чем не скажет. Если они используют допустим
Kafka+Clickhouse - из этого не следует что вам это пригодится.

Были странные архитектурные решения. Uber например пытался выжать максимальные мощности
из Postgres и не смог. Перешел на MySQL. Видимо им было достаточно MyISAM и брали лишь
только те фичи что надо.

Facebook строил Rocksdb (Key-Value) с очень сильной оптимизацией по диску. Там уже было
не R+Tree а другой тип дерева. Тоже видимо у конторы так "пригорело" что им надо было
штучную NoSQL делать.

СБЕР по слухам строил на Apache Ignite прослойку между Ораклом и клиентами потому что Оракл
не справлялся с нагрузками. Впрочем я не могу это нигде доказать. Просто слышал в разговорах
архитекторов. И это очень штучное и очень деликатоное решение. Другим оно может вообще не подойдет.
Нужно много думать о механике инвалидации кешей.

Хедж фонд BridgeWater строит свои хранилища ассетов на базе Amazon S3. Реально эти ребята пихают
в С3 все что можно. И в этом есть своя стратегия. S3 стоит дешево. И масштабируется. Дешевле чем DBMS.

Также, я думаю, что множество магазинов могут быть обслуживаться отдельными кластерами, чтобы работа всей сети не остановилась, если какая та БД выйдет из строя?

Эту задачу тоже можно решать на разных уровнях. Мне нравится решение от Cassandra. Там все
таблицы имеют 1-2 реплики. И убить всю систему в целом в принципе невозможно пока последний
датацентр стоит. Но Кассандра платит за это отказом от consistency и вообще она считается не-реляционкой.
Хотя базовый диалект SQL поддерживает. Фактически она - умный NoSQL c хорошим сетевым протоколом
обхода сбоев и конфликтов. Кажется Netflix ее активно использует.

Вобщем можно дизайнить системы по разному усиливая одни части и ослабляя другие.
Это как тот треугольник дешево-медленно-дорого но в углах стоят разные качества. Например
CAP-свойства систем. Или приоритеты. Тебе что важно. Быстро записать в БД платеж? Но при этом
чтение оперативных данных потребует лагов. Или наоборот писать медленно зато чтоб все по ящичкам
и по коробочкам лежало да и еще в разных копиях и вариациях.

Answer 2 · 2024-07-02 20:29:10

Ответ на твой вопрос можно дать, но я сильно сомневаюсь, что какую-то пользу он тебе принесёт.
Ну и как заметили в комментариях - ты и так уже сам на свой вопрос ответил.
Чтиво - начни с Клеппмана и его книги с кабанчиком, а в нём ссылок на чтиво более чем достаточно будет.

Обычно в первую очередь OLTP, а уже потом OLAP. Сначала грузится в условный постгрес, а из него уже в какую-то аналитическую систему (сорян, не шарю в этом направлении).

Какие конкретно базы используются - можешь посмотреть по вакансиям. Причём в рамках одной крупной компании (а федеральные сети - это как раз крупные компании) может использоваться сразу несколько разных СУБД чисто за счёт того что внутри существует множество продуктов для внутреннего использования, которые разрабатываются разными командами.

Из конкретных продуктов - буквально все существующие реляционные СУБД бери и в принципе все они будут так или иначе использоваться для разных задач + ещё 1С и SAP.

Answer 3 · 2024-07-06 09:26:39

Какие БД используют крупнейшие торговые сети для хранения заказов?

В Магнит и X5 используются PostgreSQL, Greenplum и Clickhouse. В Эльдорадо во времена моей работы был Oracle и MS SQL Server, сейчас наверняка на PostgreSQL переехали.

Также, я думаю, что множество магазинов могут быть обслуживаться отдельными кластерами, чтобы работа всей сети не остановилась, если какая та БД выйдет из строя?

Опять же не знаю, как сейчас, но 13 лет назад у Эльдорадо была довольно устойчивая иерархическая инфраструктура. Часть сервисов жила в двух ЦОДах, часть в серверных региональных офисов, часть на серверах магазинов, плюс кассы какое-то время могли продолжать работать вообще самостоятельно.