Какую БД выбрать для хранения «членства в группах» соцсети?

Question

Андрей Суржиков @Surzhikov

Разработчик

Какую БД выбрать для хранения «членства в группах» соцсети?

Есть 10 000 ID групп вконтакте.
Каждый день, по API выгружаются все участники (user_id) этих групп.
Получается ~ 20 млн записей.

Получается такая связка:
user_id, group_id, date

Далее, каждый день - происходит вычисление новых участников групп (находим участников, которых вчера не состояли в группе а сегодня состоят).

Вопрос:
Какой тип БД использовать, чтобы процесс записи и подсчета новых вступивших был максимален по скорости?

Вопрос задан более трёх лет назад
92 просмотра

3 комментария

Подписаться 2 Средний 3 комментария

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 307 просмотров
3

ответа
Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 198 просмотров
4

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 293 просмотра
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 169 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 120 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 306 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 251 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Показать ещё Загружается…

sim3x,
Если делать тупую таблицу user_id, group_id, date
то смущает +20млн записей каждый день.

Наверняка есть какие-то проверенные годами архитектуры для хранения таких данных..
Андрей Суржиков, ну так и подсчет у вас не требуется делать на лету
А если на лету - так храните id_group, counter в редисе

Answer 1 · 2019-05-03 00:16:22

И Контакт так легко отдает вам 20 миллионов? И никаких лимитов на скорость/частоту не ставит? Удивительно.

Тут дело не в БД, а в умении ее использовать.
Годится и Key-value типа Tarantool и реляционные типа MySQL и документарные типа MongoDB.

Если всенепременно хочется считать средствами СУБД, то я бы взял реляционную. С ней будет вполне себе удобно (функции агрегирования/группировки с подчетом сумм довольно шустры; нужно только не забыть создать индексы по группируемым полям, в данном случае это по group_id и по date) только, возможно, что скорость записи не устроит - тогда нужно будет использовать bulk load/bulk insert при вставке. Чтобы не напрягать базу данных каждый раз на эти подсчеты, то по итогам дня записывать подсчитанные суммы в другую таблицу со структурой (date, group_id, count).

Но более правильное решение, если вам действительно крайне важна скорость - вообще реализовать этот подсчет в оперативной памяти сервера без какой-либо СУБД, это несложная задача. А объемов современных серверов хватит за глаза, чтобы это все в памяти хранить. Скорость будет просто фантастической.

Ведь если подумать, то вообще можно считать нужную вам сумму непосредственно сразу после получения ответа от VK API - для этого нужно держать на сервере в оперативке всего-навсего массив/хэш-таблицу размером в 10 000 элементов. Это ерунда, а не размер.

БД тут будет нужна только для сохранения итоговых рассчитанных цифр. Это будет та самая выше описанная таблица со структурой (data, group_id, count)

Саму хэш-таблицу даже и программировать не нужно. Это наипопулярнейшая структура данных. Она или уже встроена в стандартную библиотеку вашего языка программирования. Или для вашего языка программирования уже имеется несколько сторонних библиотек с готовой реализацией. В разных языках она называется по другому, вы можете найти ее под именами: коллекциея, мэп, ассоциативный массив и т.д.

Какую БД выбрать для хранения «членства в группах» соцсети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт