Что выбирать: SQL vs NoSQL?

Question

Виталий Жук @ZhukV

Что выбирать: SQL vs NoSQL?

Привет всему хабрасообществу.

Решил все же дать жизнь своей мечте в создании одного не маленького проекта. И возникает вопрос, что же лучше использовать для Primary Storage?

На данный момент, думаю над PostgreSQL (MySql) или же каким-то NoSql решением (на примете Redis).

Задача проекта, это сбор информации с разных источников с большой скоростью.

Но вот, появляется куча ньюансов в из-за которых не могу определиться:

1. Редис все же быстрый (я бы сказал очень быстрый), но имеет больше процент потери данных при падании сервера чем реляционная БД
2. Редис не дает возможности явно указывать связи между сущностями.
3. БД (MySQL) при огромном количестве записей (ожидается более 20 млн записей) очень сильно начинает «тупить».

Поставленные требования:
1. Быстрая скорость записи/чтения
2. Возможность репликации на другие сервера
3. Фильтров почти нету, по сути, только списки.
4. Допустима потеря данных до 2%

Может кто-то сталкивался с такой задачей, и имеет опыт. Буду очень благодарен за ответы/советы. Спасибо!

Вопрос задан более трёх лет назад
21067 просмотров

1 комментарий

Подписаться 14 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 9

5 комментариев

Виталий Жук @ZhukV Автор вопроса

Возможно дело в конфигах (я в этом не очень силен:( ), но когда у нас было 24 млн записей, и использовались фильтры (по индексам), БД очень долго обрабатывала этого запрос.

Написано более трёх лет назад
Пума Тайланд @opium

Это всего лишь значит что ваши фильтры не использовали индексы, а это значит что вы получите такой же результат на nosql решении.

Написано более трёх лет назад
Виталий Жук @ZhukV Автор вопроса

Ну наверное я же не слепой был, когда писал тот запрос и смотрел по explain…

а это значит что вы получите такой же результат на nosql решении.

Ну если честно, мне кажется, что Вы здесь ~~конкретно~~ палку перегнули, или Вы можете показать, что скорость чтения/записи Redis == MySQL? Или же даже MongoDB == MySQL?

Написано более трёх лет назад
Пума Тайланд @opium

Задайте пул в память для иннодб и оно будет читать на скорости 100 мегабайт в секунду, только сегодня видел это на одной виртуалке с толстым клиентом.
Я бы сказал что монго оно не столько производительнее сколько лучше масштабируется и шардируется из коробки.

Написано более трёх лет назад
Виталий Жук @ZhukV Автор вопроса

Я бы сказал что монго оно не столько производительнее сколько лучше масштабируется и шардируется из коробки.

Но это уже другая сторона вопроса: что лучше будет поддерживаться/масштабироваться :)

Написано более трёх лет назад

Комментировать

8 комментариев

Виталий Жук @ZhukV Автор вопроса

Здесь вопрос стал в скорости. Скорость в редиса будет намного выше.

Написано более трёх лет назад
Дмитрий Гукетлев @Yavanosta

Скорости чего? Вставки? Выборки? Какие предполагаются нагрузки?

Если вставка и допустима потеря данных при падении, пробовали отключать wal?

Написано более трёх лет назад
Дмитрий Гукетлев @Yavanosta

У постгре какие настройки? Вы надеюсь не на дефолтных запускали? Какие характеристики у сервера?

Написано более трёх лет назад
Дмитрий Гукетлев @Yavanosta

Какая была методика определения того, что «Скорость в редиса будет намного выше.»? Или вы по статьям в интернете судите?

Написано более трёх лет назад
Виталий Жук @ZhukV Автор вопроса

Относительно настроек, я не знаю, так как не я сервака админю.
Скорость и чтения и записи.

Написано более трёх лет назад
Виталий Жук @ZhukV Автор вопроса

Какая была методика определения того, что «Скорость в редиса будет намного выше.»? Или вы по статьям в интернете судите?

Мы один проект запустили сначала на PostgreSQL (Doctrine 2), после чего для эксперемента перенесли на Редис. Скорость была более чем в 10 раз выше.

Написано более трёх лет назад
Дмитрий Гукетлев @Yavanosta

Ну так проконсультируйтесь с админом. Сейчас я вам ничем помочь не могу. «У меня есть какой-то сервере с постгре, который я не знаю как настроен, и он медленнее чем редис который непонятно устанавливал ли я вообще. Определил я это чтением интернета, а не тестами».

Установите, настройте, проведите тесты и все поймете. Определите где у вас узкие места I\O, CPU, память. Попробуйте оптимизировать индексы. Проведите тесты еще раз. А так можно только на кофейной гуще гадать.

А если просто хочется поиспользовать NoSQL, но страшно и нужно одобрение сообщества, то используйте, я одобряю. Учтите только что там вас тоже ждет очень много очень неприятных эффектов.

Написано более трёх лет назад
Дмитрий Гукетлев @Yavanosta

Уже лучше. :-) Теперь давайте разбираться с остальными вопросами. Скорость чего была выше?

Ни одно из решений для хранения данных не является серебряной пулей, поэтому их так много, а не одно. Определите профиль использования вашего хранилища и подбирайте нужное. Например:

1) постоянно писать поток телеметрии и иногда делать по нему выборку по ключам
2) разово (раз в день\час\неделю) впитывать большой объем данных и потом по неизменным данным строить выборки по ключам
3) впитать большой объем данных на старте, обрабатывать время от времени изменений\добавления и строить выборки по ключам
4) все тоже самое но сложные выборки с большим количество джоинов
5) ???

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 445 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 338 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 282 просмотра
3

ответа
Показать ещё Загружается…

UPD
Примерные характеристики сервера для первого старта:
Intel Core Duo i7, 32 Gb, ~ 1 Tb (берем на хетцнере).

Нагрузки на чтения/запись:
Запись: > 2000 — 3000 в секунду
Чтение: ~ 500 — 1500 в секунду (Тяжело сказать, так как будет зависеть от количества пользователей)

Answer 1 · 2013-09-14 17:01:30

1) сильно сомневаюсь, что 32gb ram вам хватит на 20+млн записей, для редис
2)У редиса есть AOF при котором потери данных крайне маловероятны
3) Редис быстрый не потому что nosql, а потому что бд в ram
4) при корректно построенных индексах и структуре бд на 20 млн мускул не тупит, у нас на одном продакшн проекте в таблице сейчас 100 млн и все отлично шустро работает. кстати таблица переехала из редиса, когда тому перестало хватать РАМа, после тюнинга мускула быстродействие не пострадало.
5) Как выше написали, если делать инсерты пачками, а не по одному, это значительно ускорит работу бд
6)у хетцнера диски очень любят сыпаться, крайне не рекомендую их сервера. Сопоставимые цены у OVH, при явно лучшем качестве
7) Как показывает мой опыт, корректно настроенный SQL достаточен в 99% случаев

Answer 2 · 2013-09-14 18:17:36

Пума Тайланд @opium

Просто люблю качественно работать

20 миллионов для mysql это ничто.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2013-09-14 19:42:52

Перечисленным вами требованиям вполне удовлетворяет простая запись в файлы. Но вы этот очевидный вариант не рассматриваете, значит, он вам не подходит. По каким причинам не подходит — вы умалчиваете, но хотите получить совет. Чтож, это открывает простор для фантазий. Я вам советую Java-Chronicle или MapDB — самые быстродействующие решения.

Answer 4 · 2013-09-14 13:07:50

Если вам надо только читать\писать используйте постгре. С этими задачами она справляется вполне неплохо.

Answer 5 · 2013-09-14 13:25:09

MongoDB начиная с версии 2.4 вполне пригоден для продакшн. И репликация есть и отличная скорость. Используем в боевом проекте. Объем базы 32 Гб. Три реплики в реальном времени. Пишет только мастер. Читают только слейвы(у нас операций чтений больше почти в 20 раз)
На первый взгляд может показаться, что отсутствие реплики мастер-мастер — не есть гут. Однако в БД реализованы механизмы переизбрания мастера в случае падения.

Answer 6 · 2013-11-27 19:27:34

Лучше подумайте над тем какие преимущества дадут вам SQL против NoSQL. Сейчас модно говорить об NoSQL, но это всего лишь слова. А что вы будете делать когда схема БД будет меняться? Когда возникнут потребности в выборках которые вы не предусмотрели изначально? NoSQL хорош там, где нужна помощь SQL-решениям. Как самостоятельное primary решение я думаю его даже не стоит рассматривать.

Answer 7 · 2013-09-14 16:16:29

Допустима потеря данных до 2%

Один из 50 insert'ов падает, и это приемлемо, я верно понял?

БД (MySQL) при огромном количестве записей (ожидается более 20 млн записей) очень сильно начинает «тупить»

Если структура данных вполне определена и поддаётся секционированию, возможно можно разбивать инфу по таблицам по месецам/неделям/ и др. ( смотря какой поиск будет производится)

1. Хотите быть гибкими чтоб поменять редис-могно-sql, подумайте об абстракции, используйте шлюз между вызывающим кодом и хранилищем. ( в таком случае кеширующую прослойку можно легко внедрить при необходимости)
2. Напишите тест генерирущий кучу предположительных запросов на чтение и на запись (если проект будет развиваться — пригодится)

(оба пункта дадум вам ценный полезный практический опыт)

Большой поток инсертов можно решить буферизирование на клиенте, и вставлять кучу строк за одну зоманду — Хорошая оптимизация, подумайте, возможно в вашем случае это вполне приемлемо.

Мне больше нравится как первичное хранилище реляционка, редис/монго и прочее как промежуточно хранение агрегированной инфы или для кеширование.

Answer 8 · 2013-09-14 17:28:15

В первом пункте Вы сильно ошибаетесь — при дефолтных настройках он надёжнее Postgre.

Второй пункт — да, отличие от реляционных БД радикальное.

Чтобы данные вмещались в память, будут требоваться несколько серверов (горизонтальное масштабирование). Сервера БД и приложения должны быть раздельными.

Answer 9 · 2013-09-14 18:55:19

Для динамических данных (структура, связи, частый апдейт) — RMDB, для статики (текст, коллекции и т.д.) — NoSQL. Вполне можно сдружить в одном проекте.

Answer 10 · 2013-09-15 00:10:32

Посмотрите в сторону Percona Server + Percona NoSQL Это всем давно и хорошо известный MySQL. Где нужны сложные запросы для анализа данных — используете обычные SQL запросы, где нужна скорость — обращаетесь к тем же самым данным через NoSQL интерфейс. Еще один бонус — мастер-мастер репликация из коробки.

Что выбирать: SQL vs NoSQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт