Какая NOSQL СУБД максимально быстрая с вертикальным масштабированием для многотерабайтной базы?

Question

mspain @mspain

Какая NOSQL СУБД максимально быстрая с вертикальным масштабированием для многотерабайтной базы?

Здравствуйте!

Как известно подавляющее большинство NOSQL СУБД предполагают горизонтальное масштабирование - увелечением количества узлов.

Прошу посоветовать СУБД в которую можно на одном сервере быстро загрузить несколько терабайт данных/десятки миллиардов записей, СХД не быстрое, обычные диски в RAID10. ОЗУ 64ГБ. Ядер 12. Хотелось бы получить скорость хотя бы 100к вставок в секунду на всём диапазоне.

ElasticSearch очень медленный, даже в начале нет 100к.

Lucene тоже.

Есть опыт работы с Монго, но что-то медленно у неё получается. Начинает бодро - с 100к/сек, но уже на 300млн записей скорость быстро снижается до 10к и ниже.

Пробовал индексы не создавать - скорость загрузки отличная, 120-200к на всём диапазоне. Но создание индекса на 2ТБ базе с 10млрд документов просто бесконечно медленное.

Данные не key value, а четыре отдельные строки, по каждой нужен четкий поиск.

Вопрос задан более трёх лет назад
1048 просмотров

23 комментария

Подписаться 7 Средний 23 комментария

d'Ivan @2ord

Интересует лишь скорость вставки данных?

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр, Конечно четкий поиск потом тоже должен быть адекватным по скорости.

Фишки FTS (нечеткий, перестановки, близость слов) не нужны.

Как понимаю, объем индексов будет гигабайт 300-400. При объеме ОЗУ в разы меньше и обычных дисках с не фантастической скоростью. Интересно, задача вообще решаема?

Написано более трёх лет назад
d'Ivan @2ord

mspain,
Данные не key value, а четыре отдельные строки
Что означает эта фраза?
4 колонки или просто текст из 4-х строк?

Написано более трёх лет назад
mspain @mspain Автор вопроса

4 связанные строки. Поиск по любой из четырёх должен возвращать остальные три. В Монге это выглядит как

"k" : [ "string1", "string2", "string3" ], "v" : "string4",

Может и key-value СУБД так умеют?

Написано более трёх лет назад
sim3x @sim3x

https://gist.github.com/valyala/ae3cbfa4104f1a022a...

https://www.postgresql.org/message-id/CAKhTGFX-ChB...

Если вам нужно гарантированное, то стоит нанять DBA
Melkij, например

Написано более трёх лет назад
d'Ivan @2ord

mspain,
еще вопросы:
1. какова средняя длина строк, в символах?
2. это текст на естественном языке или там присутствует много специальных знаков (допустим, код)?
3. важен ли регистр символов при поиске?
4. кол-во связанных строк всегда ли равно 4?
5. одинажды вставив связанные строки в БД, изменяется ли их содержимое впоследствие?

Написано более трёх лет назад
d'Ivan @2ord

А зачем надо было использовать Lucene, ElasticSearch, если:
Фишки FTS (нечеткий, перестановки, близость слов) не нужны.

и, если я верно понял, нужен точный поиск?

Написано более трёх лет назад
mspain @mspain Автор вопроса

sim3x, Слона особо даже не рассматриваю, хотя из реляционных СУБД, с ним работал больше всего. К бенчмаркам где реляционные СУБД побеждают Монго на CRUD отношусь как к прохладным былинам и впариванию.

Я даже сомневаюсь, что Оракловый direct path справится с задачей на моем железе

Что сходу не нравится в вашей ссылке:
No constraints, no indexes.
i7-4790K and an Intel 750 SSD
Какой-то сферический конь в вакууме.

У монги на старте больше 200к/сек без индексов. И 100к/с с 3 индексами.

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр,
вы так обстоятельно спрашиваете. :)

Задача загрузить малоструктурированные данные всяких утечек паролей и прочих (гуляющих по инету с января этого года) как это делает haveibeenpwned.com и проверить нашу организацию.

80-90% это email + password. Соответственно: Три токена: user, domain, email. К нему password. Ну и на самом деле ещё номер файла-источника. Я его одним Integer-ом обозначаю. оставшееся 10-20% всякое разное. Оно идёт в Lucene в 12 потоков. Эластик намного медленнее на том же железе.

Данные меняться не будут. Догружаться потом тоже редко.
Но хотелось бы это всё сделать не за месяц, а быстрее.

Написано более трёх лет назад
d'Ivan @2ord

mspain, ну, тогда, возможно, проще проверить на принадлежность через их API?

Написано более трёх лет назад
d'Ivan @2ord

mspain, https://www.opennet.ru/opennews/art.shtml?num=48121

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр, проще вообще ничего не проверять. :)

Проверил свой email у них. То, как завуалированно показывают результат они и как можно выводить реальные фрагменты из текстовых файлов - это две большие разницы.

Написано более трёх лет назад
d'Ivan @2ord

mspain, не вижу смысла показывать пароли, да и небезопасно это. Ведь главное узнать найден ли логин в БД.
Завуалированно - это ясно почему. Им важно, чтобы можно было проверить наличие, не раскрывая при этом самих чувствительных данных.

Написано более трёх лет назад
d'Ivan @2ord

Даже если нужно выполнить поиск 10 тыс. логинов, то всяко быстрее сделать все это по API и на этом закрыть вопрос.
Но если хочется сделать по-своему, то, исходя из структуры данных, похоже что реляционные СУБД должны лучше подходить для хранения и поиска по ней. Одинажды записав данные в СУБД, они будут предназначены только для чтения.

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр, у меня нет проблем с реляционными СУБД, но у реляционных СУБД есть проблемы со скоростью. Если бы у рСУБД не было таких проблем, мы бы не наблюдали такого расцвета NOSQL как сейчас.
Но у NOSQL упор на распределенность...

У "улучшенных" Слонов (Цитрус, ПГ-XL итд) кстати, тоже.

Написано более трёх лет назад
d'Ivan @2ord

mspain,
Пробовал индексы не создавать - скорость загрузки отличная, 120-200к на всём диапазоне. Но создание индекса на 2ТБ базе с 10млрд документов просто бесконечно медленное.

А индекс по каким полям создается?

Написано более трёх лет назад
sim3x @sim3x

mspain,
К бенчмаркам где реляционные СУБД побеждают Монго на CRUD отношусь как к прохладным былинам и впариванию.
а я наоборот, наслушался как монга умеет падать и не работать, что ее не рассматриваю как субд.
+ у комманды постгреса большой размер опыта в области

Как я понял вам нужно всунуть асап 2-3тб, а потом непонятно, что будет с данными непонятно

ПС: Я не дба ниразу

Написано более трёх лет назад
mspain @mspain Автор вопроса

>я наоборот, наслушался

Надо меньше слушать, больше делать. У меня не падают ни монга, ни слон. Но монга быстрее (на данной задаче ещё не 100% понятно, но наверняка тоже)

>у комманды постгреса большой размер опыта

Слон одна из самый архаичных и костыльных реляционных СУБД. Учите матчасть.

Написано более трёх лет назад
d'Ivan @2ord

mspain, а что насчёт моего вопроса об индексах?

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр, Здравствуйте. Как изначально и написано, поиск нужен по всем четырём полям: токены, pass, file.

"t" : ["param","pam","tadam"],
"p" : "haha",
"f" : 3062632

на so почти сразу ткнули в древний request 2010 года, но сами монговцы его считают minor.

печалька.

Написано более трёх лет назад
d'Ivan @2ord

mspain, не вижу смысла включать в индекс пароль, ведь фактически будет продублирована вся БД.

Написано более трёх лет назад
mspain @mspain Автор вопроса

Роман Мирр, ваши предложения, если надо искать и по любому из токенов в email и по паролю и по файлу.

Написано более трёх лет назад
d'Ivan @2ord

Раньше было написано так:
Три токена: user, domain, email

В индекс включать точно domain и email, а user (логин?) только если будет искаться по нему.
А какой смысл искать по паролю? Вам пользователи сообщат какие пароли использовали?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Учебный центр IBS

ARC-008 Проектирование высокопроизводительных приложений и инструменты ИИ

1 неделя

Далее
Яндекс Практикум

Архитектура программного обеспечения

6 месяцев

Далее
Devhands

Производительность и масштабируемость

2 месяца

Далее

Решения вопроса 1

6 комментариев

mspain @mspain Автор вопроса

Nurbol, спасибо за ответ. Ещё поперевариваю его, но кажется это всё немного не про нас. Стоит задача просто загрузить 2-3 терабайта данных за чем меньше дней, тем лучше и организовать по ним поиск. Догружать потом особо не будет.

Пока основная версия - в облачных сервисах взять инстанс с супербыстрым СХД и собрать базу там, потом скопировать к себе, у себя только поиск делать.

Написано более трёх лет назад
Nurbol Suleimenov @snurbol

Пробовали Write concern ставить 0?

Написано более трёх лет назад
peterpro @peterpro

mspain, тут еще вопрос - какого типа данные и какого типа операции над ними планируется совершать? Может посмотреть в сторону https://clickhouse.yandex/docs/ru/?

Написано более трёх лет назад
mspain @mspain Автор вопроса

Nurbol Suleimenov, молча терять неизвестную часть данных не вариант, гружу с ACKNOWLEDGED.

За ссылку спасибо, журнал, действительно, можно совсем выключить, забыл про это.

В остальном пока успел проверить только основную версию и опять фэйл - скопировал данные в облака с относительно быстрым SSD и сервером 72core/144GB. Без индекса скорость вставки намного больше миллиона записей в сек. 2 терабайта залилось меньше, чем за сутки. Заканчиваешь импорт и начинаешь создавать индекс и опять дно...отредактировал. Создание индексов в монго однопоточное. Узкое место скорость 1 ядра CPU. За 15 часов 5% сделало.

maxIndexBuildMemoryUsageMegabytes=10000 мимо кассы.

Похоже, время тестить Слона и Эластик.

Написано более трёх лет назад
Nurbol Suleimenov @snurbol

Ладно, хочется закрыть уже этот вопрос.
В ходе переписки, показалось, что Вы ставите цель в низкоуровневой опимизации.
Я ничего против не имею, но низкоуровневая оптимизация не позволит существенно
облегчить (ускорить) задачу. Ведь Mongo и без того считается одной из самых быстрых
БД. Выжимать "все соки" из БД может не самый лучший путь?! Я бы посмотрел на
выскокоуровневую оптимизацию.Учет бизнес логики, случай использования (cases),
фильтрация данных (уменьшение) до записи в БД, паковка записей, ...

Ты привели технические детали, без случай (case) использования. Поэтому я сначала
описал все туманно, а после все же опустился до низкогоуровневой оптимизации.
Если хотите, можете открыть новый вопрос, без технических подробностей реализации,
а больше про формат данных, целей и задач проекта, способ использования в примере
и немного техничекой статистики данных (кол-во записей, объем, трафик).

Написано более трёх лет назад
mspain @mspain Автор вопроса

Nurbol Suleimenov, Спасибо за потраченное время!

Пока ковырялся с альтернативами, Монго допилил индекс в 1 поток.

Что интересно, похоже Постгрес на задаче bulk-вставки можно быстрее Монги разогнать. Но это не 100%, т.к. я не учитываю время создания csv. И не тестил как несколько copy одновременно будут работать.
Строго говоря, я после 1.5 дней мучений просто плюнул на конвертирование моих данных в CSV, т.к.
email это "^[a-zA-Z0-9_!#$%&’*+/=?{|}~^-]+(?:\\.[a-zA-Z0-9_!#$%&’*+/=?{|}~^-]+)*@[a-zA-Z0-9-]+(?:\\.[a-zA-Z0-9-]+)*$"
а пароль - практически любой символ
Слон упорно отказывался жевать csv-шки, то слэш ему не нравится, то ещё что-то.

Монга просто на порядок удобнее для программиста.
Пакет на вставку - обычный массив, пока его не отправили в Монгу, можно менять как хочешь (это уже для отсеивания дублей).

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+3 ещё

Средний
Как организовать паралельную и последовательную обработку задач по условиям?
- 1 подписчик
- более года назад
- 219 просмотров
0

ответов
Linux

+2 ещё

Простой
Как поймать, что дает высокий Load Average?
- 3 подписчика
- более года назад
- 881 просмотр
2

ответа
NoSQL

+2 ещё

Сложный
Как правильно разрабатывать гибкую клиент серверную архитектуру и делать клиент серверные игры на Godot?
- 1 подписчик
- более двух лет назад
- 164 просмотра
1

ответ
PHP

+2 ещё

Средний
Какую архитектуру парсинга маркетплейса выбрать?
- 1 подписчик
- более двух лет назад
- 369 просмотров
1

ответ
SQL

+1 ещё

Простой
Какую бд лучше выбрать?
- 1 подписчик
- более двух лет назад
- 139 просмотров
1

ответ
Highload

+1 ещё

Простой
Существует ли практика выставления приоритета запросу в очереди сообщений?
- 4 подписчика
- более двух лет назад
- 1234 просмотра
1

ответ
Python

+2 ещё

Простой
Что выбрать в качестве промежуточного хранилища в проекте?
- 6 подписчиков
- более двух лет назад
- 2618 просмотров
3

ответа
NoSQL

Простой
Реально на NoSQLсделать полноценный ИМ?
- 1 подписчик
- более двух лет назад
- 259 просмотров
1

ответ
.NET

+3 ещё

Простой
Как реализовать атомарное обновление 2 файлов?
- 4 подписчика
- более двух лет назад
- 1063 просмотра
3

ответа
Базы данных

+1 ещё

Простой
Какие есть песочницы (fiddle) для NoSQL баз данных?
- 2 подписчика
- более двух лет назад
- 400 просмотров
1

ответ
Показать ещё Загружается…

Интересует лишь скорость вставки данных?
Роман Мирр, Конечно четкий поиск потом тоже должен быть адекватным по скорости.

Фишки FTS (нечеткий, перестановки, близость слов) не нужны.

Как понимаю, объем индексов будет гигабайт 300-400. При объеме ОЗУ в разы меньше и обычных дисках с не фантастической скоростью. Интересно, задача вообще решаема?
mspain,
Данные не key value, а четыре отдельные строки
Что означает эта фраза?
4 колонки или просто текст из 4-х строк?
4 связанные строки. Поиск по любой из четырёх должен возвращать остальные три. В Монге это выглядит как

"k" : [ "string1", "string2", "string3" ], "v" : "string4",

Может и key-value СУБД так умеют?
https://gist.github.com/valyala/ae3cbfa4104f1a022a...

https://www.postgresql.org/message-id/CAKhTGFX-ChB...

Если вам нужно гарантированное, то стоит нанять DBA
Melkij, например
mspain,
еще вопросы:
1. какова средняя длина строк, в символах?
2. это текст на естественном языке или там присутствует много специальных знаков (допустим, код)?
3. важен ли регистр символов при поиске?
4. кол-во связанных строк всегда ли равно 4?
5. одинажды вставив связанные строки в БД, изменяется ли их содержимое впоследствие?
А зачем надо было использовать Lucene, ElasticSearch, если:
Фишки FTS (нечеткий, перестановки, близость слов) не нужны.

и, если я верно понял, нужен точный поиск?
sim3x, Слона особо даже не рассматриваю, хотя из реляционных СУБД, с ним работал больше всего. К бенчмаркам где реляционные СУБД побеждают Монго на CRUD отношусь как к прохладным былинам и впариванию.

Я даже сомневаюсь, что Оракловый direct path справится с задачей на моем железе

Что сходу не нравится в вашей ссылке:
No constraints, no indexes.
i7-4790K and an Intel 750 SSD
Какой-то сферический конь в вакууме.

У монги на старте больше 200к/сек без индексов. И 100к/с с 3 индексами.
Роман Мирр,
вы так обстоятельно спрашиваете. :)

Задача загрузить малоструктурированные данные всяких утечек паролей и прочих (гуляющих по инету с января этого года) как это делает haveibeenpwned.com и проверить нашу организацию.

80-90% это email + password. Соответственно: Три токена: user, domain, email. К нему password. Ну и на самом деле ещё номер файла-источника. Я его одним Integer-ом обозначаю. оставшееся 10-20% всякое разное. Оно идёт в Lucene в 12 потоков. Эластик намного медленнее на том же железе.

Данные меняться не будут. Догружаться потом тоже редко.
Но хотелось бы это всё сделать не за месяц, а быстрее.
mspain, ну, тогда, возможно, проще проверить на принадлежность через их API?
Роман Мирр, проще вообще ничего не проверять. :)

Проверил свой email у них. То, как завуалированно показывают результат они и как можно выводить реальные фрагменты из текстовых файлов - это две большие разницы.
mspain, не вижу смысла показывать пароли, да и небезопасно это. Ведь главное узнать найден ли логин в БД.
Завуалированно - это ясно почему. Им важно, чтобы можно было проверить наличие, не раскрывая при этом самих чувствительных данных.
Даже если нужно выполнить поиск 10 тыс. логинов, то всяко быстрее сделать все это по API и на этом закрыть вопрос.
Но если хочется сделать по-своему, то, исходя из структуры данных, похоже что реляционные СУБД должны лучше подходить для хранения и поиска по ней. Одинажды записав данные в СУБД, они будут предназначены только для чтения.
Роман Мирр, у меня нет проблем с реляционными СУБД, но у реляционных СУБД есть проблемы со скоростью. Если бы у рСУБД не было таких проблем, мы бы не наблюдали такого расцвета NOSQL как сейчас.
Но у NOSQL упор на распределенность...

У "улучшенных" Слонов (Цитрус, ПГ-XL итд) кстати, тоже.
mspain,
Пробовал индексы не создавать - скорость загрузки отличная, 120-200к на всём диапазоне. Но создание индекса на 2ТБ базе с 10млрд документов просто бесконечно медленное.

А индекс по каким полям создается?
mspain,
К бенчмаркам где реляционные СУБД побеждают Монго на CRUD отношусь как к прохладным былинам и впариванию.
а я наоборот, наслушался как монга умеет падать и не работать, что ее не рассматриваю как субд.
+ у комманды постгреса большой размер опыта в области

Как я понял вам нужно всунуть асап 2-3тб, а потом непонятно, что будет с данными непонятно

ПС: Я не дба ниразу
>я наоборот, наслушался

Надо меньше слушать, больше делать. У меня не падают ни монга, ни слон. Но монга быстрее (на данной задаче ещё не 100% понятно, но наверняка тоже)

>у комманды постгреса большой размер опыта

Слон одна из самый архаичных и костыльных реляционных СУБД. Учите матчасть.
mspain, а что насчёт моего вопроса об индексах?
Роман Мирр, Здравствуйте. Как изначально и написано, поиск нужен по всем четырём полям: токены, pass, file.

"t" : ["param","pam","tadam"],
"p" : "haha",
"f" : 3062632

на so почти сразу ткнули в древний request 2010 года, но сами монговцы его считают minor.

печалька.
mspain, не вижу смысла включать в индекс пароль, ведь фактически будет продублирована вся БД.
Роман Мирр, ваши предложения, если надо искать и по любому из токенов в email и по паролю и по файлу.
Раньше было написано так:
Три токена: user, domain, email

В индекс включать точно domain и email, а user (логин?) только если будет искаться по нему.
А какой смысл искать по паролю? Вам пользователи сообщат какие пароли использовали?

Answer 1 · 2019-03-24 11:41:49

mspain, вот некоторые мысли:

не рассматривали возможность разделения возможностей хранения и поиска по разным БД? Очевидно, что накладные расходы по поддержанию работы двух БД приведут к понижению производительности. Но это в случае синхронной работы. Если характер нагрузки на БД хранения не равномерна, то выставив приоритетность (не только CPU, но и RAM, ...) на хранение, добьемся высокой производительности сохранения записей. Менее приоритетная индексация будет совершаться при снижении нагрузки на основное хранилище. Из плюсов: высокая скорость загрузки, использование специализированного БД для поиска с его плюсами. Из минусов: отложенная индексация из за сравнительно низкой производительности индексации, система распределения нагрузки в ОС или отдельная всегда имеет некоторую интерность в жизни -> будет не так идеально как я описал, но приближенно
Индексация по расписанию. Если в работе допустимо отставание индексов поиска, то во время пониженной нагрузки (ночью, ранее утро, выходные, ...) производить индексацию в единственном БД или в БД для поиска.
Eventual consistency. Если людские ресурсы и компетенция позволяет, то можно собрать конвеер по сглаживанию нагрузки на основе системы очередей. Использование очереди в памяти, и запись в БД в воркерах. По настоящему отличной производительности можно добиться, если добавить логику по выставлению приоритетов запросам, использования паковки схожих запросов, а так же предварительной обработки запросов бизнес логикой. Не подойдет, если характер загрузки данных это пакетный импорт (batch import) огромных данных, а при неравномерной нагрузке будет отлично работать. Минусы, конечно есть: это очередь в памяти и его надежность. Т.е. durability.

Первое решение может быть и не рабочим, покажет только профилирование. Второе однозначно рабочее, но может не подойти, а третье подойдет при некоторых условиях и при наличии компетентности.

--------- UPDATE ---------------
Почитал комментарии и Ваши ответы.

4 связанные строки. Поиск по любой из четырёх должен возвращать остальные три. В Монге это выглядит как

"k" : [ "string1", "string2", "string3" ], "v" : "string4",

Может и key-value СУБД так умеют?

1. Это выглядит странно. Вы на каждую строку ведете 16 вариантов записи в Mongo?
Если да, то не нужно этого делать. В Mongo есть мульти индексы. Т.е. можно так:
> db.col1.save({'data': ['string1','string2','string3','string4']})
> db.col1.ensureIndex({'colors':1})
> db.col1.find({'data': {$in: 'string3'}})
{ "_id" : ObjectId("63cc78f97cf77dc2a2e54e18"), "data" : ["string1", "string2", "string3", "string4"] }
Это по поводу формата данных.
2. Будет хорошее улучшение в способе загрузки:
https://www.khalidalnajjar.com/insert-200-million-...
Почитал комментарии и Ваши ответы.

4 связанные строки. Поиск по любой из четырёх должен возвращать остальные три. В Монге это выглядит как

"k" : [ "string1", "string2", "string3" ], "v" : "string4",

Может и key-value СУБД так умеют?

1. Это выглядит странно. Вы на каждую строку ведете 16 вариантов записи в Mongo?
Если да, то не нужно этого делать. В Mongo есть мульти индексы. Т.е. можно так:
> db.col1.save({'data': ['string1','string2','string3','string4']})
> db.col1.ensureIndex({'colors':1})
> db.col1.find({'data': {$in: 'string3'}})
{ "_id" : ObjectId("63cc78f97cf77dc2a2e54e18"), "data" : ["string1", "string2", "string3", "string4"] }
Это по поводу формата данных
2. Будет хорошее улучшение в способе загрузки:
https://www.khalidalnajjar.com/insert-200-million-...
Предлагаю Вам, считывать Ваш файл и в Unix pipe форматировать в CSV или TSV далее в mongoimport.

Какая NOSQL СУБД максимально быстрая с вертикальным масштабированием для многотерабайтной базы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт