На каких объемах данных реляционные БД перестают работать?

Question

dbratus @dbratus

На каких объемах данных реляционные БД перестают работать?

Мы проектируем систему, которая в одной из таблиц, в год, должна накапливать более 52.5 миллиардов записей общим объемом 2.7 Tb (если учитывать только полезную нагрузку). То есть, очень много записей с полезной нагрузкой 52 байта на запись. Сейчас мы думаем над хранилищем данных. Заказчик предлагает запихнуть это все в MS SQL 2008, но мне это категорически не нравится, то есть я почти уверен что MS SQL не потянет, но мне нужны доказательства. Поэтому вопрос, собственно: существуют ли независимые опубликованные данные по предельным нагрузкам на различные реляционные БД в том числе и MS SQL? (на английском) Я видел много сравнений MySQL с MongoDB, Cassandra и т.д., но сравнений с MS SQL найти не могу.

Заранее спасибо.

Вопрос задан более трёх лет назад
20386 просмотров

Комментировать

Подписаться 13 Оценить Комментировать

Помогут разобраться в теме Все курсы

Академия Eduson

FullStack-разработчик: тариф PRO

14 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
GB (GeekBrains)

Профессия Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 12

Комментировать

3 комментария

dbmaster @dbmaster

Извиняюсь — сорвалось.

Узнайте у заказчика почему он хочет именно SqlServer — это поможет вам выборе технологии и аргументации.

SQL Server сам по себе плохо масштабируется (scale out).

Купить железа и лицензий, и обеспечить SLA (тут опять же нужно уточнить) можно — весь вопрос в цене.
Небольшие расчёты тут www.codinghorror.com/blog/2009/06/scaling-up-vs-scaling-out-hidden-costs.html

Очень много факторов влияет на выбор хранилища:

* уже существующий софт и команда
* как данные приходят (real-time vs. etl)
* какие запросы и вычисления нужны (olap vs oltp)
* нужны ли транзакции
* как будут осуществляться бакапы
* нужна ли отказоустойчивость (clusters / mirroring / etc)
* какие технологии будут использоваться для обработки данных
* стоимость поддержки (Microsoft vs. other Company)

Одно могу гарантировать — при таком объёме данных танцы с бубнами на любых операциях в SQL Server вам гарантированны.
Банальные select / update / delete превращаются в сложные метамарфозы — это из моего опыта.

Пару линков, которые возможно помогут:

www.brentozar.com/archive/2011/06/scaling-sql-server-growing-out/
stackoverflow.com/questions/3287966/reasons-for-and-against-moving-from-sql-server-to-mongodb

Прикиньте стоимость нескольких решений — и убедите заказчика потратить денег на POC.

Написано более трёх лет назад
dbmaster @dbmaster

Есть ещё такой вариант — Microsoft прикручивает Hadoop к Sql Server — к сожалению пока не пробовал.

www.microsoft.com/sqlserver/en/us/solutions-technologies/business-intelligence/big-data-solution.aspx

Написано более трёх лет назад
dbratus @dbratus Автор вопроса

Спасибо за ответ.

База OLTP. Транзакции не нужны. То есть UPDATE-ов по этому делу вообще не будет, толко INSERT и SELECT. Команды, железа, лицензий пока нет, поэтому есть пока некоторая свобода выбора. В общем, пока задача — определить, что в принципе справится с такими данными и выбрать наименее затратный вариант.

Написано более трёх лет назад

Комментировать

5 комментариев

pietrovich @pietrovich

но мне это категорически не нравится, то есть я почти уверен что MS SQL не потянет, но мне нужны доказательства

Я думаю поиск аргументов начат из-за уверенности что «не потянет». Да, у меня нет опыта работы с базами больше 1Tb на MS SQL Server 2008, но с не намного большими объемами возиться приходилось. а глядя на предполагаемую структуру данных предположить возможне сложности сложновато, скорее наоборот. Поэтому, чем искать альтернативы, проще взять десктопный двухтеррабайтник, триалку Windows Server, накатить на него триалку SQL Server не шибко навороченной редакции и попробовать. Посмотреть на данные, как они лягут на размер страницы, как хитрее накатить на это дело индексы (какие, fill factor, кластерные или нет), накорябать сторед котрый забьет винт под завязку тестовыми данными и попробовать подергать выборки на обычном десктопном железе. Эксперимент обойдется в стоимость винта и потраченных суток-двух, в зависимости от расторопности экспериментатора.
Более чем уверен, что при simple recovery mode и правильной разбивке таблицы на секции проблем не возникнет.
А если удачно пдобрать редакцию, то еще и сжатие можно будет использовать, благо вставки не шибко частые (у вас, кстати, ошибочка, речь шла о миллиардах а не миллионах, т.ч. 6-7K в час получается) а выборки затрагивают только отдельные и небольшие участки таблицы, т.ч. еще и на стореджах сэкономить можно.
Т.ч. заказчим, может, вовсе и не прав. SQL Server штука мощная, а раз заказчик хочет его, то скорее всего у него есть кому поручит присмотр за базой. В отличие от более экзотических решений, с сопровождением котрых потом еще можно хлопот поиметь.

Написано более трёх лет назад
pietrovich @pietrovich

З.Ы.: вообще, на таких структурах и выборках наверняка справится любая более менее серьезная СУБД. Наверняка можно и Postgress/Oracle приспособить, но я в их возможностях «плаваю», поэтому не знаю на сколько просто будет посечь таблицу на куски с возможным разнесением одной таблицы на несколько винтов. Все остльное элементарщина не достойная особого внимания — на такой структуре это будет выборка малых кусков из короткой таблицы, остальные данные лежат на винте невостребованные и кушать (кроме места) не просят.

Написано более трёх лет назад
pietrovich @pietrovich

И еще в помощь:
serverfault.com/questions/59460/oracle-vs-sql-server-to-handle-around-6-7-terabytes-of-data
msdn.microsoft.com/en-us/library/dd537533%28v=sql.100%29.aspx
msdn.microsoft.com/en-us/library/gg567302.aspx
msdn.microsoft.com/en-us/library/gg981694.aspx

Написано более трёх лет назад
dbratus @dbratus Автор вопроса

Вот я чего и боюсь, что узким местом станет сеть, connection pool, и т.д. То есть 6 млн. записей в час (т.е. 100 000 в минуту) на один физический сервер не пройдут. Шардинг — да, но это scale-out, а при том, что лицензия на каждую установку SQL Server стоит денег, это добавляет cost, помимо собственно железа. Поэтому именно для этой таблицы идея с SQL Server-ом мне не нравится.

Кроме того, обеспечить одновременно чтение и запись на одном сервере может оказаться невозможно. Нужно как-то отделять одно от другого. В MongoDB, например, мне нравится, что она может кешировать данные в памяти, занимая ее хоть всю. Это плюс.

В общем, разумнее всего — хранить обычные данные в обычной базе (MS SQL), а для данного случая копать распределенные базы.

Написано более трёх лет назад
pietrovich @pietrovich

Ай-яй. А я ведь тоже в порядкаж ошибся. Пересчитал, таки действительно речь о 6M вставок в час идет. Или 1.6k вставок в сек. Только что проверил на своем ноуте (core i7, hdd 5400RPM, раздел с данными забит почти под завязку, т.ч. фрагментация там недетская будет), вставка 100K строк со случайными данными в такую тублицу как у вас занимает до 40сек (включая генерацию этих данных), что составляет примерно 2.5K строк в секунду. Если я нигде не ошибаюсь, то даже мой ноут перекрывает потребности по вставкам более чем в полтора раза.
Если у вас приложение не будет на каждую строку открывать новое соединение, то с транспортом проблем возникнуть не должно даже если кидать по TCP.
П поводу отжора памяти — сколько инстансу выделите, столько он и захавает. И будет там и кеши хранить и всякие другие полезняшки.
В ашем случае достаточно просто посечь длинную таблицу на секции встроенными инструментами и горя знать не будете. Насекайте по таймштампу, выборки у вас котроткие, как максимум будут задевать две секции на границах, а в остальных случаях они всегда попадают в одну секцию, а значит общий размер таблицы вас смущать не должен.

Написано более трёх лет назад

2 комментария

6 комментариев

sl_bug @sl_bug

Или я туплю или ORDER BY TIMESTAMP LIMIT 1 (или как там в ms sql) был бы все таки быстрее :)

Написано более трёх лет назад
sl_bug @sl_bug

хотя если две записи с одинаковым id и timestamp то не прокатит…

Написано более трёх лет назад
dbratus @dbratus Автор вопроса

Не суть важно, это так, для примера.

Написано более трёх лет назад
pietrovich @pietrovich

У SQL Server 2008 весьма сносно реализован table partitioning (шардинг), если смотреть на ваши таблицы, то при правильной настройке секционирования проблем на таких объемах не будет вообще (если я правильно посчитал, то в выборку попадает порядка 3-5k строк). Только учтите, что на 2.7Tb данных, у вас индексы по объему могут столько-же занять. Хотя если воткнуть пару трешек в системник, то должно умещаться, разве что на «раскидать файлы по винтам» немного времени потратить придется. Есть, кстати, подозрение, что при таой структуре и таких выборках особых требований на RAM и проц не возникет, можно пробовать и на обычном офисном десктопе производительность потестировать.

Написано более трёх лет назад
librarian @librarian

Вы смеетесь? Под БД брать SATA? SAS+SSD под кэш.

Написано более трёх лет назад
pietrovich @pietrovich

А чем, конкретно под эту задачу, SATA не угодил?

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL Server

Простой
Как проще всего проверить были ли какие активности в базе MSSQL?
- 2 подписчика
- 24 дек. 2025
- 87 просмотров
1

ответ
MongoDB

Простой
Как получить записей содержащих нужное значение в массиве?
- 1 подписчик
- 18 дек. 2025
- 61 просмотр
1

ответ
MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек. 2025
- 368 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб. 2025
- 212 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб. 2025
- 245 просмотров
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб. 2025
- 230 просмотров
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 200 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт. 2025
- 646 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент. 2025
- 349 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент. 2025
- 129 просмотров
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Программист Embedded Linux, OpenWrt

Ростовский завод электроники • Москва

от 80 000 до 120 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2011-12-08 13:34:29

А что значит не потянет?

Размер таблицы в MS SQL ограничен только размером диска.

Другой вопрос — обработка данных, будет медленно, возможно будут ошибки, но это проблема настроек или несоответствие запрашиваемых объемов данных размеру оперативной памяти. Первая проблема с помощью гугла или довольно дешевого специалиста легко решается, а вторую все равно придется исправлять в клиенте независимо от базы.

Если key-value вас устраивает, то такие движки конечно же будут работать на порядок быстрее, есть куча популярных.

Тут я должен был сказать, что если другая модель не SQL более оптимально описывает ваши данные, то лучше использовать ее. Но такие базы, пока, не сравнятся по популярности с реляционными и нет исчерпывающей информации по всем возможным проблемам. Кроме того, на мой взгляд, производительность там также не очень откатана и вот там вполне может «не потянуть» внезапно и по непонятным причинам. В общем я бы рекомендовал такой вариант только если у вас какой-то совсем запущенный случай, который никак приемлемо не решить с помощью реляционной базы. А просто так на таких объемах я бы не экспериментировал.

И вообще все эти тесты — фигня. Единственный нормальный тест — это создать вашу таблицу на двух движках, заполнить демо-данными и протестировать с реальными запросами и под нагрузкой близкой к ожидаемой. Хотя и это не дает полной картины, есть еще такие нюансы как: надежность, горячие бэкапы или даже зеркало, если потеря даже последних данных критична, масштабируемость, итд.

Да и заказчика понимаю, поставите вы ему сейчас что-то модное и NOSQL, пусть даже производительность в несколько раз лучше (хотя тут тоже вопросы), а ему потом в случае чего придется срочно искать специалистов на эту базу, которые еще и возьмут втридорога.

Answer 2 · 2011-12-08 14:39:19

dbmaster @dbmaster

Как говорила моя старая знакомая, нужно сесть и посчитать.

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2011-12-09 02:50:34

Ну вообще говоря, 2.7 Тб само по себе не так много (телекомы используют гораздо большего объема базы). Мы использовали базы около 3 терабайт на оракле, сначала два обычных среднего уровня сервера в RAC, потом пробовали Exadata DB Machine Quarter Rack (http://www.oracle.com/us/products/database/exadata-database-machine/overview/index.html — прочитайте, зверь-машина), все нормально работала.

Ключевые проблемы:

— partitioning и разделение это таблицы на отдельные секции, которые лежат на разных жестких дисках в рейде (критичные партиции, где лежат наиоболее горячие данные, можно положить на SSD)
— будет ли идти большое количество «живых» запросов агрегирующих данных на высоком уровне? Запросы к таблице в несколько миллиардов записей выполняются вполне быстро, если они строго идут по partition keys, если таблица грамотно разбита на партиции, и если они лежат на разных дисках. Запросы типа — посчитать мне среднюю цену по 5 миллиардам заказов, конечно, вас быстро положат на лопатки, просто из-за сумасшедшего IO.
— Диски. Оцените стоимость нормального SAN, посмотрите какие в MS SQL есть средства типа оракловского ASM (automatic storage manager).

Answer 4 · 2011-12-08 16:43:09

согласен с pietrovich.

52500 милионов записей в год ~= 4375 в месяц ~= 145.83в день ~= 6.08 в час

добейтесь добавления 6 миллионов записей в час учитывая распределение по DATASOURCE_ID и будет вам счастье. В принцепи можно распределить разные data sources на разные сервера и таким образом добиться scale out.

Hint: Майкрософт даёт пробовать на пол года Enterprise версию — заказчику не обязательно платить сразу.

хотя вы же вроде ищите аргументы против (

Answer 5 · 2011-12-08 13:17:49

Уместнее было бы рассказать про данные и как их будут использовать. Но в любом случае — шардинг.

Answer 6 · 2011-12-08 15:12:03

Структура данных такая:

DATASOURCE_ID: UUID

TIMESTAMP: DATETIME

VALUE: DOUBLE

Выборки по:

SELECT *

FROM DATA_TABLE

WHERE 

 DATASOURCE_ID = :ID AND 

 TIMESTAMP = (SELECT MAX(TIMESTAMP) FROM DATA_TABLE WHERE DATASOURCE_ID = :ID)

должны возвращать данные максимум за 1-2 секунды.

Answer 7 · 2011-12-09 01:22:00

phasma @phasma

Бери Oracle и не парься. Ну или DB2.

Ответ написан более трёх лет назад

2 комментария

Answer 8 · 2011-12-09 02:57:47

Вообще я бы сказал, если не говорить о ценах, а просто об объемах данных, вы еще далеко от того предела, когда реляционные базы не будут выдерживать вашей нагрузке, если конечно ваша модель данных именно реляционая. В полной стойке Exadata V2-8, например, почти 5 терабайт только Flash Cache Memory (и 100/330 теребайт основного хранилища, смотря по тому, поставите вы SCSI или SATA для него.)

Answer 9 · 2011-12-08 23:09:16

При таких объемах и структуре данных может что-то вроде RRDtool исползовать, или whisper какой-нибудь?

Answer 10 · 2011-12-09 16:57:01

mike114 @mike114

В банках Teradata используют, легко переваривает огромные массивы информации

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2014-07-09 21:27:10

Судя по запросу, вам нужно получить последние (по времени) данные по каждому датасорсу. Почему бы не брать периодически (раз в минуту, час, сутки) самый последний timestamp для каждого датасорса и не складывать его данные в другую табличку? И уже по этим (уменьшенным) данным делать ваш запрос. Соотв, объем данных уменьшится, т. е. ваш запрос будет выполняться быстрее. Первичные данные (raw дата) либо в шлак после n месяцев хранения, либо в файлы и на ленту, если они в дальнейшем могут понадобиться.

Answer 12 · 2019-05-08 14:31:06

MS SQL 2016 база 6.5Тб, рост базы 500 Гб/мес, новых записей 10-50 в секунду, чтение постоянно, в среднем 1500-2000 транзакций/сек
Оперативы 32 Гб, проц 8 ядер,
Сервер просто курит, в среднем 5-7% CPU, видел пики до 70% но редко, средний IO Wait - 30мс
Надо просто базу нормально проектировать зная какие нагрузки, какие операции будут выполнятся, а не как привыкли, создал табличку и все, а потом затык уже на 100 Гб ))))
Опять же запросы к базе нормально оптимизировать, индексы.

На каких объемах данных реляционные БД перестают работать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт