Как хранить в БД много статистических данных?

Question

dom1n1k @dom1n1k

Как хранить в БД много статистических данных?

Ситуация гипотетическая.
Возьмём сервис типа Яндекс Метрики или Google Analytics. К ним стекается информация по миллионам сайтов и триллионам событий. Как они эту информацию хранят в базе?
Понятно, что держать отдельную запись на каждый хит или клик - нереально. Это и места прорва, и отчеты строить долго. Данные должны как-то консолидироваться и храниться в обработанном виде. Вероятно, с несколькими уровнями подробности - по неделям, месяцам и так далее. Всё кажется довольно понятным (ну, на глобальном уровне, если не вдаваться в подробности).
Но вот что не дает мне покоя - при построении отчета у них можно выбрать любой интервал времени. Типа посмотреть распределение версий браузеров в разрезе операционной системы Windows с 11 ноября по 26 декабря. Как они это делают? Выходит, что они всё-таки хранят и сырые данные тоже? Или "почти сырые", с минимальной обработкой.
Можно где-то почитать теорию на эту тему?
Интересует именно такой прикладной вопрос - как сохранить возможность посмотреть статистику за произвольный временной интервал, при этом максимально экономя ресурсы железа.

Вопрос задан более трёх лет назад
1693 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 130 просмотров
1

ответ
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 83 просмотра
0

ответов
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 76 просмотров
1

ответ
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн.
- 124 просмотра
2

ответа
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 160 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4796 просмотров
9

ответов
Аналитика

Простой
Какие сейчас используются качественные программы для pairwise?
- 2 подписчика
- 04 мая
- 54 просмотра
2

ответа
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 372 просмотра
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 204 просмотра
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Data Scientist (Middle)

Strikt

До 200 000 ₽

Разметчик данных (Data Annotator) (без опыта)

Nomadic Soft

от 300 до 500 $

Answer 1 · 2016-03-09 16:19:35

В БД пишется реал-тайм данные, а отчеты строятся по данным из хранилищ, где они уже частично агрегированы в кубах, из которых можно построить различные срезы.

Answer 2 · 2016-03-09 16:45:30

www.ozon.ru/context/detail/id/19383907

если работали с большими данными (от 10к в сутки хотя бы, а лучше 30-50), должны были видеть явные несоответствия типа 2+3 =4 и 3+2 = 6, т.е. считать -то он считает, но не до крайней молекулы

Answer 3 · 2016-03-10 11:49:08

Однородные данные разбросаны по нескольким серверам в кластере. Условно говоря, на одном сервере данные за февраль 2011, на другом - за март 2014, так что особой разницы нет, какой давности нужна статистика - все вытаскивается по запросу за примерно одинаковое количество времени. Данные организованы с помощью MapReduce либо другой похожей по применению технологии. Если бы такое огромное количество информации хранилось в реляционных базах данных, то запросы бы жуто тормозили и вместо долей секунд отрабатывали за часы.

Answer 4 · 2016-03-17 16:25:24

В премиум версии Google Analytics можно выгрузить данные на уровне hits к ним в облако. Не знаю включают ли они эту функцию только премиум юзерам, но мне кажется, что Google хранит информацию именно на уровне хитов для всей GA.

Да, в самой GA, для скорости отчётов используется та или иная техника преагрегации (ответы выше скорее всего верны), но гугл использует эту информацию в своём основном бизнесе.

Ну и объём там небольшой в сравнении с их сервисами (YouTube).

Кроме того MapReduce, вышел из стен Google? Насколько я знаю по статьям на хабре и течкраче, компании вроде Гугл и Фейсбук используют свои системы храниния, которые на поколение опережают опен сорс аналоги. Пока они их используют, они закрыты и услышать о них можно только на конференциях и в научных работах, выходящих из стен компании. Ну а когда приходит время новой системы - Google открывает исходники)

Как хранить в БД много статистических данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт