Что лучше много маленьких таблиц или одна гигантская в MySQL?

Question

Bone @Bone

MySQL

Что лучше много маленьких таблиц или одна гигантская в MySQL?

Будет такая таблица: id, id раздела, id пользователя. Пользователей миллионов 200, разделов около миллиона. Один пользователь может относиться к нескольким разделам. Мне нужно будет получать статистику сколько людей добавились в раздел и сколько удалились. Так вот вопрос в том, как лучше сделать: заводить под каждый раздел отдельную таблицу и просто писать туда id пользователей (тогда потенциально я могу оказаться с миллионом таблиц на руках) или писать всё в одну таблицу в виде id раздела, id пользователя. Тогда получу таблицу возможно с миллиардом строк, если не больше. Что лучше для такой задачи?

Вопрос задан более трёх лет назад
7490 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Java-разработчик

9 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее

Решения вопроса 1

9 комментариев

Bone @Bone Автор вопроса

Интересно. Я так понимаю, для этого нужно иметь несколько MySQL серверов. Можно ли их где-то арендовать, т.е. заказать не полный хостинг или vds, а только нужное количество MySQL серверов?

Написано более трёх лет назад
Иван @LiguidCool

Bone: VPS

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Bone: эм. у меня ощущение что вы не совсем понимаете как это все работает.
Я не понимаю что такое "полных хостинг"
MySQL это ПО. Которое установлено на железном или виртуальном сервере.
MySQL как SAAS предлагает например amazon, но цены там Вам не понравятся, под нагрузкой будет на порядки(x10) дороже аренды нескольких железных серверов.

Если у вас проект с реально 200 000 000 пользователей - то это немаленький кластер физических серверов. Балансировщики, Бекенды, фронтенды, sql, cache.
Это десятки и даже сотни физических серверов в общем случае.

PS Подумал и понял что у Вас задача в стиле "давайте на старте сделаем архитектуру на века".
Так не бывает. Архитектура на сотни миллионов пользователей отличается от того что можно сделать быстро и небольшой командой.

Написано более трёх лет назад
Bone @Bone Автор вопроса

Дмитрий Энтелис: ладно, не буду темнить. У меня парсер для вконтакте. Мне нужно получать участников групп и сравнивать кто добавился, а кто удалился. Потом записывать добавившихся в одну таблицу, а удалившихся в другую с указанием группы и даты. В ВК порядка 80 000 000 групп и наверное 300 000 000 аккаунтов, понятно что около 80% групп никого не интересуют, но остается всё равно много. Попробовал два раза спарсить группу MDK (5.5 миллионов человек). Получил две таблицы и сравнивал их при помощи left join, чтобы узнать кто удалился и добавился. Запросы выполнялись очень долго (больше минуты каждый), индексы есть на user_id и на group_id. Всё это непрерывно - идём по очереди групп, парсим, когда доходим до конца очереди начинаем сначала.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Bone: вообще это крайне ресурсоемкая задача.
Я бы хранил массив id пользователей каждой группы в каком нибудь redis, после получения данных из vk данные из redis целиком, в коде за 1 проход получал массивы добавившихся и удалившихся, сохранял эти 2 массива куда нибудь на память, записывал в redis текущий слепок списка пользователей(удаляя старый).

На практике я думаю что самое узкое место в быстродействии будет получение списка пользователей из vk.

Написано более трёх лет назад
Bone @Bone Автор вопроса

Дмитрий Энтелис: у ВК хороший API. 5 миллионов пользователей собираются за 12 минут и при желании можно ещё ускорить, если собирать в несколько потоков. Проблема именно в том, как их хранить и что ещё важнее, как быстро сравнить старые данные с новыми. В общем, пошел читать про Redis. Спасибо.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Bone: я работал с API ВК много :) Не совсем эти задачи делали, но все же.
Мне кажется что история лога пользователей становится интересной если есть хотя бы посуточная разбивка - а это тянет за собой много ресурсов на постоянную скачку.
Хотя с точки зрения анализа - я не могу придумать зачем нужен именно список id пользователей кто вошел/вышел.
Нужны количественные метрики, в идеале разбитые по полу и группе возрастов.
Возможно имеет смысл их рассчитывать и хранить вместо полного лога вступивших/вышедших

Написано более трёх лет назад
Bone @Bone Автор вопроса

Дмитрий Энтелис: это используется для таргетирования рекламы. Если человек сегодня подписался на свадебный паблик, то вероятно он готовится к свадьбе и вообще свадьбы - его текущий интерес, а если он подписался год назад, то уже скорее всего женат или больше этим не интересуется. Я успел выяснить, что Redis хранит данные в памяти. У меня 1 гб на сервере, подозреваю, что много я в него не сохраню.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Bone: www.hetzner.de/hosting/produkte_rootserver/px60 возьмите себе уже сервер хотя бы дешевенький. 1гб памяти это мало для vdsки которая держит говновордпресс с посещаемостью 50 человек в сутки. А у вас тут таргетинг рекламы :)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Комментировать

5 комментариев

CAMOKPYT @CAMOKPYT

монга для старых хипстеров, она уже умерла как и ноджс

Написано более трёх лет назад
Bone @Bone Автор вопроса

CAMOKPYT: а что родилось?

Написано более трёх лет назад
Bone @Bone Автор вопроса

Philipp: допустим у меня есть раздел в котором после последнего обновления было 5 миллионов пользователей, теперь я опять получаю данные и мне нужно узнать кто к этим 5 миллионам добавился, а кто ушел. Это возможно быстро сделать?

Написано более трёх лет назад
Philipp @zoonman
Bone: Да, и достаточно легко. Т.к. вы априори знаете временной интервал, то можете с легкостью запросить список пользователей в стиле
db.users.find({ 'sections.got': {$gte: yesterdayTimestamp}, 'sections.access': 1, 'sections.section': sectionId, })
Написано более трёх лет назад
Philipp @zoonman

Таким образом тут будут пользователи, которые получили доступ к разделу sectionId, начиная со времени yesterdayTimestamp. Вы можете построить дополнительные индексы и тогда у вас будут очень быстрые выборки.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 251 просмотр
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 195 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 221 просмотр
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 620 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 341 просмотр
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 128 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 415 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 129 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 182 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 202 просмотра
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Answer 1 · 2014-11-13 22:33:34

Откройте для себя шардирование. Как средствами sql сервера, так и средствами логики приложения.
Т.к пользователей на 2 порядка больше я бы шардировал по ним.
UPDу меня ощущение что вы не совсем понимаете как это все работает.
Я не понимаю что такое "полных хостинг"
MySQL это ПО. Которое установлено на железном или виртуальном сервере.
MySQL как SAAS предлагает например amazon, но цены там Вам не понравятся, под нагрузкой будет на порядки(x10) дороже аренды нескольких железных серверов.

Если у вас проект с реально 200 000 000 пользователей - то это немаленький кластер физических серверов. Балансировщики, Бекенды, фронтенды, sql, cache.
Это десятки и даже сотни физических серверов в общем случае.

PS Подумал и понял что у Вас задача в стиле "давайте на старте сделаем архитектуру на века".
Так не бывает. Архитектура на сотни миллионов пользователей отличается от того что можно сделать быстро и небольшой командой.

Answer 2 · 2014-11-13 22:23:37

Postgre берите или Maria имхо лучше 1 большая таблица. Но надо ещё знать интенсивность чтения и записи.

Answer 3 · 2014-11-13 22:34:38

Все зависит от удобства кодинга и кол-ва запросов: можно насоздавать кучу таблиц с отдельными разделами и списком пользователей в каждом из них, затрачивая при этом кучу процессорного времени на запросы к БД, а можно хранить всё в одной таблице, но вопрос, разберетесь вы в этой горе мусора и сможете ли выстроить код таким образом, чтобы он обрабатывал запросы без ошибок, переполненный и прочего. Вам решать... Я все-таки бы добавлял отдельные таблицы с разделами в БД, а уж в них кидал списки юзеров: так и ясность есть, и можно оперативно перебирать элементы по их идентификатору, а вот если все в одной большой таблице, то получается, нужно будет работать со строками (делать поиск по подстрокам, по регуляркам возможно даже), в которых через разделитель будут храниться имена пользователей, которым доступен раздел, что несомненно геморно. Надеюсь, я правильно вас понял и вы поняли мой взгляд на ситуацию.

Answer 4 · 2014-11-14 00:15:22

Если у вас задача один раз записал и забил (делаешь только select) то можно и одну.
Если у вас задача: здесь записал новое, тут добавил, там изменил (а индексы надо перестраивать), то видимо лучше шардировать (партиционировать) на несколько таблиц. Особенно это актуально при физическом удалении данных.
Если ваши данные накапливаются во времени, то лучше шардировать таблицы по дате (времени).

Answer 5 · 2014-11-14 06:41:40

Я бы такое хранил в MongoDB, там шарды и репликация идут из коробки.
Т.к. вы сказали несколько разделов, то напрашивается коллекция users с документом, внутри которого будут ссылки на разделы.
Что-то в виде:

{
 _id: 992,
 sections: [
  {section: 24, access: 1, got: timestamp},
  {section: 25, access: 0, got: timestamp, lost: timestamp},
 ]
}

Используя Aggregation Framework вы легко получите требуемые данные.

Что лучше много маленьких таблиц или одна гигантская в MySQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт