БД под миллиарды записей и быстрые выборки

Question

cawabanga @cawabanga

БД под миллиарды записей и быстрые выборки

Привет.

Есть задача: организовать хранение нескольких (около 5) миллиардов записей, которые можно медленно обновлять, но нужно быстро выбирать. Схема многомерная, т.е. каждая такая запись связана с другими через внешние ключи, которые также участвуют в критериях выборок.

Для примера пусть это будут автомобили на продажу/аренду, все их характеристики раскиданы по другим таблицам, по ним нужно искать. Автомобилей много. MySQL даже с индексами справляется с этим не очень.

Что делать? CouchDB? Hadoop? Или просто спроектировать нормально можно?
Всё-таки, не такое уж и большое число, миллиард этот.
Денег мало.

Вопрос задан более трёх лет назад
13860 просмотров

3 комментария

Подписаться 11 Оценить 3 комментария

Решения вопроса 1

8 комментариев

antarx @antarx

PS Миллиард записей — это очень много, если к хоть сколько-то заметной части регулярно нужен доступ — просто оцените количество реальных обработок строк в секунду — с учётом оценки IO, CPU и памяти это даст грубую оценку количества необходимых серверов.

Написано более трёх лет назад
ToSHiC @ToSHiC

Кстати, у вас есть опыт хранения миллиарда ключей в монге? Тут коллеги пробовали 2.1, у них на ~400млн начинает всё сильно тупить на вставке, при этом там было 3 реплики и шардировано на 4 машины вроде, всё на ссд лежало + много памяти.

Написано более трёх лет назад
antarx @antarx

Нет. Более того, я не представляю, как в монге решать те или иные проблемы/сервисные задачи без глобального даунтайма. Развалившийся кластер — что-то вроде конца света для такого решения.

Имхо, на таких объёмах с ssd вполне можно использовать обыкновенный MySQL, в особо резких по CPU случаях через HandlerSocket.

Написано более трёх лет назад
ToSHiC @ToSHiC

Мускуль не катит, т.к. как только мастер отваливается — наступает readonly, и нормального режима переключения мастера автоматически, прозрачно для приложений и без геморроя нету.

Написано более трёх лет назад
antarx @antarx

У мускуля есть родная мастер-мастер репликация, есть галера. Badoo с ними живёт и не жалуется.

Написано более трёх лет назад
Dzen_Marketing @Dzen_Marketing

Мастер-мастер лучше юзать на Перконовском мускуле

Написано более трёх лет назад
ToSHiC @ToSHiC

Фейсбук тоже живёт, просто у них главная идея «датацентр надёжен и не может перестать работать». Можете кинуть пару-тройку ссылок с успешным опытом применения и с цифирками?

Написано более трёх лет назад
cawabanga @cawabanga Автор вопроса

Да, я тоже думаю, что в подобных случаях архитектуру шардинга данных нужно строить с оглядкой на прикладную логику. На другом проекте мы так и делаем, только там главный квест — не объём данных, а скорость, отказоустойчивость и масштабируемость.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 10

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 10 часов назад
- 72 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 13 часов назад
- 89 просмотров
1

ответ
MySQL

Простой
Какой установщик MySQL использовать?
- 1 подписчик
- 12 авг.
- 183 просмотра
4

ответа
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 105 просмотров
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 216 просмотров
1

ответ
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 245 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- 25 июл.
- 288 просмотров
1

ответ
Linux

+2 ещё

Простой
Как запустить mysql после ошибки?
- 1 подписчик
- 22 июл.
- 176 просмотров
3

ответа
MySQL

Простой
Какое отставание MySQL Slave от MySQL master считать проблемным?
- 1 подписчик
- 21 июл.
- 166 просмотров
2

ответа
MySQL

Простой
MYSQL --skip-grant-tables?
- 1 подписчик
- 04 июл.
- 93 просмотра
1

ответ
Показать ещё Загружается…

Nest.js разработчик

Qtim

от 100 000 до 180 000 ₽

DBA в команду базовой инфраструктуры

SMALL

от 2 000 до 4 500 $

PHP-разработчик

Wanted

До 300 000 ₽

MySQL даже с индексами справляется с этим не очень. Значит индексы сделаны не правильно.
Не понимаю одной вещи. Когда отказывает MySQL справлятся с ключами?
>Когда отказывает MySQL справлятся с ключами?

Например, когда индексы не влезают в память.

Answer 1 · 2012-10-05 11:25:32

Шардинг и денормализация данных, БД имеет большей частью вкусовые значения.

То есть, минимизируйте внешние зависимости и следите за ними на уровне приложения. Небольшие таблицы лучше целиком хранить в каком-нибудь memory-хранилище (кеш приложения, nosql — не важно). Далее, явно разделите данные по основному ключу (скажем, номер продаваемого итема), и храните в разных БД. Если вдруг неожиданно окажется, что для не-сервисных операций нужны выборки, не связанные с основным ключом — вы либо что-то делаете не так, либо храните именно эти данные в другой бд.

Answer 2 · 2012-10-05 11:08:09

gleb_kudr @gleb_kudr

PostgresQL.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-10-05 11:58:23

Денормализация -> нет необходимости делать JOIN'ы -> возможность отказа от SQL -> возможность горизонтального масштабирования -> profit

Answer 4 · 2012-10-05 10:58:51

Urvin @Urvin

MS SQL очень дорого?

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2012-10-05 13:43:56

Я бы посоветовал использовать MySQL или что угодно другое, что будет поддерживать быстрые выборки по первичному ключу, а поиск по параметрам проводить через специальные средства — например, тот же sphinx.

Просто индексируете сфинксом свою базу, ищете ч/з сфинкс, он возвращает Id записи, по ид уже быстро вытаскиваете контент из MySQL.

Answer 6 · 2012-10-05 11:16:07

Раз редко обновляете — сделайте несколько слейвов, нагрузка на каждый делится пропорционально их количеству.

Answer 7 · 2012-10-05 12:01:51

1nd1go @1nd1go

Для этого советуют Riak

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2012-10-05 15:22:40

Пума Тайланд @opium

Просто люблю качественно работать

Приведите примеры таблиц и запросов к mysql
миллиард записей не так уж и много.

Ответ написан более трёх лет назад

Комментировать

Answer 9 · 2012-10-06 14:07:35

Базарю для этого отлично подходят документоориентированные БД. У них как раз медленная запись, но очень быстрое чтение. Соответственно не нужны никакие внешние ключи, вся инфа по машине будет храниться в одном документе. Сам работал с RavenDB, но думаю для вас это не лучший вариант, можно посмотреть в сторону MongoDB. Миллиарды записей не проблема.

Answer 10 · 2012-10-05 14:16:48

betal @betal

mysql slave,
nosql

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2012-10-05 15:28:23

shagguboy @shagguboy

вам нужны битмап индексы. в Mysql их нет.

Ответ написан более трёх лет назад

Комментировать

БД под миллиарды записей и быстрые выборки

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт