Как лучше поступить в случае, когда намечается огромное количество данных?

Question

Алексей Николаев @Heian

Ашот

PostgreSQL

Как лучше поступить в случае, когда намечается огромное количество данных?

Здравствуйте.
Есть СУБД PostgreSQL. Есть также задача собирать статистику с соц. сетей по определенным параметрам (fb, tw, ig и т.п.) и затем высчитывать определенные данные. В перспективе это сотни миллионов, даже миллиарды строк, т.к. сервис большой и серьезный.

В чем вопрос: коллега предложил сделать по одной денормализованной таблице статистики для каждой соцсети, аргументируя это тем, что будет много данных и лучше их разделить на несколько частей. Т.е., например, таблица facebook_stats. Я же ратую за нормализованный и более сложный подход: таблица stats с полем type, и парой других полей для основных данных, к которой затем будут присоединены таблицы с данными, специфичными именно для конкретной соцсети по схеме one-to-one.

На мой взгляд, второе решение красивее и архитектурно более гибкое, в коде работать с ним будет приятнее и легче. Останавливает вопрос нагрузки: если делать так, как предложил коллега, таблицы будут в 4 раза меньше, чем моя таблица stats. Но с другой стороны, в моей таблице будут храниться только основные данные, а дополнительные при необходимости быстро подтянутся за счет foreign keys.

Какой вариант лучше выбрать, когда маячат действительно большие данные? Как их хранят и обрабатывают крупные корпорации? Нужно, чтобы было и красиво, и быстро.

Заранее спасибо.

Вопрос задан более трёх лет назад
78 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Skillbox

Курс Java-разработчик

4 месяца

Далее
Нетология

SQL и получение данных

2 месяца

Далее

Решения вопроса 1

4 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 240 просмотров
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 176 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 166 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 109 просмотров
1

ответ
PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 299 просмотров
5

ответов
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 228 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 151 просмотр
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 134 просмотра
1

ответ
PostgreSQL

Средний
VACUUM в PostgreSQL 15 уже несколько суток в фазе vacuuming indexes что можно сделать?
- 6 подписчиков
- 27 авг.
- 932 просмотра
2

ответа
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

GO разработчик

SMALL

от 220 000 до 300 000 ₽

Python разработчик

АВ Софт • Москва

от 200 000 ₽

Answer 1 · 2018-10-19 21:39:38

Большие данные измеряются не количеством строк в таблицах, а объёмами этих данных. И пока у вас не петабайты, большими они не являются. И упомянутый вами в тегах highload - это про количество запросов в секунду, а не количество строк в таблицах.

Структуру БД надо подбирать под структуру запросов. Для плоского селекта по индексируемым полям 20-30 миллиардов строк в таблице проблемой не являются.

Как лучше поступить в случае, когда намечается огромное количество данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт