Какую выбрать технологию для хранения и выборки больших данных?

Question

Артем @devspec

Помогло? Отметь решением

Поисковые системы

Какую выбрать технологию для хранения и выборки больших данных?

Всем привет!

Есть задачка следующего вида.
Есть много юзеров (десятки тысяч). Для каждого юзера необходимо хранить некие короткие текстовые данные. Для одного юзера может храниться 10 строк, для другого 10000, для третьего - миллион - для каждого юзера количество хранимых строк разное. Строки могут повторяться между юзерами.
Вопрос: какую из современных bigdata-технологий стоит выбрать для хранения этой информации, при условии, что:
1. Доступ будет осуществляться из c# - следовательно, нужен драйвер для c#
2. Поиск будет происходить по юзеру - то есть запрос вида "выбрать все строки, принадлежащие юзеру Х" будет наиболее частым запросом.
3. Поиск и выборка должны происходить максимально быстро (миллисекунды), независимо от количества юзеров и строк в базе.

Вопрос задан более трёх лет назад
566 просмотров

19 комментариев

Подписаться 5 Простой 19 комментариев

sim3x @sim3x

Какая сейчас технология используется?
Что гугл подсказал?

Написано более трёх лет назад
Артем @devspec Автор вопроса

sim3x, Сейчас все в файлах хранится, что накладывает некоторые ограничения и неудобства.
Гугл подсказывает большое количество разных систем, но интересует именно опыт сограждан, а не десятки попыток применить ту или иную технологию, что равно потраченным впустую неделям.

Написано более трёх лет назад
d'Ivan @2ord

Артем, 3-й пункт будет означать на практике необходимость считывания миллиона строк данных за миллисекунды. А для чтения такого объема данных нужна высокая скорость чтения с диска.

Написано более трёх лет назад
Артем @devspec Автор вопроса

Роман Мирр, вопросы железа я бы пока оставил в стороне, нет проблем поставить какой-нибудь рейд на SSD для увеличения скорости выборки, равно как и организовать кластер из нескольких машин
вопрос именно в технологии, которая это потянет

Написано более трёх лет назад
sim3x @sim3x

Артем, поисковиков, в открытом доступе два
sphinxsearch
elastic

Написано более трёх лет назад
Артем @devspec Автор вопроса

sim3x, мне не нужен полнотекстовый поиск

Написано более трёх лет назад
sim3x @sim3x

Артем, тогда берите постгрес, делайте 3NF, делайте несколько слейвов
Или мемкеш

В зависимости умении и требований к сохранности данных

Написано более трёх лет назад
Артем @devspec Автор вопроса

sim3x, в мемкеш, боюсь, вся база не поместится - она сейчас около 100 гб и каждый день увеличивается на ~500 Мб
как насчет всяких хадупов и прочего похожего?

Написано более трёх лет назад
sim3x @sim3x

Артем, 1Тб ram не было проблемой поставить на 1 машину 3 года назад

У вас требование - мс задержки
Учитывая, что у вас будет 10-500мс на сети, то ответ от СУБД требуется дать за <1мс

Укажите ваши приоритеты

Написано более трёх лет назад
Артем @devspec Автор вопроса

sim3x, да, с памятью понятно, возможно это хороший вариант, буду думать в сторону in-memory databases, спасибо

Написано более трёх лет назад
d'Ivan @2ord

Артем, а в чем необходимость делать выборку всех миллионов записей за один запрос? Ведь миллион строк за 1 раз не просто ни отобразить ни на экране, ни передать по сети?! Это тупо много данных.

Написано более трёх лет назад
stratosmi @stratosmi

Артем,
нет проблем поставить какой-нибудь рейд на SSD для увеличения скорости выборки, равно как и организовать кластер из нескольких машин вопрос именно в технологии, которая это потянет

Есть проблема.
У вас нет компетентных специалистов, которые это смогут сделать.
Вы даже не понимаете, что RAID на SSD не панацея.

Написано более трёх лет назад
stratosmi @stratosmi

равно как и организовать кластер из нескольких машин
вопрос именно в технологии, которая это потянет

Вы серьезно считаете, что ваши так называемые "специалисты", называющие словом BigData самую что ни на есть рядовую задачу, способны будут поднять кластер?

Написано более трёх лет назад
stratosmi @stratosmi

Вопрос: какую из современных bigdata-технологий

3. Поиск и выборка должны происходить максимально быстро (миллисекунды), независимо от количества юзеров и строк в базе.

Бигдата и "мгновенно" - это 2 взаимоисключающих понятия.

Написано более трёх лет назад
stratosmi @stratosmi

Поиск и выборка должны происходить максимально быстро (миллисекунды), независимо от количества юзеров и строк в базе.

Независимо от количества? Ха-ха.
А если у пользователя будет данных на 100 петабайтов?
Найти-то вы может и найдете, но как вы прочитаете с диска и отдадите в сеть 100 петабайтов за миллисекунду.

Написано более трёх лет назад
Артем @devspec Автор вопроса

stratosmi, у нас вообще нет специалистов - всем занимаюсь я один. И фронтендом, и бекэндом, и администрированием на данный момент двух серверов. Разве что маркетингом не занимаюсь пока что ) Компетенции - дело наживное, научусь.

Написано более трёх лет назад
stratosmi @stratosmi

Артем,
в мемкеш, боюсь, вся база не поместится - она сейчас около 100 гб и каждый день увеличивается на ~500 Мб
как насчет всяких хадупов и прочего похожего?

Через 5 лет будет всего лишь 1 терабайт.

Вы что, серьезно, считаете эти детские объемы достойными Хадупа с его нормальной работой на петабайтах данных?

Самый банальный PostgreSQL способен на куда как большее

Limit Value
Maximum Database Size Unlimited
Maximum Table Size 32 TB
Maximum Row Size 1.6 TB
Maximum Field Size 1 GB
Maximum Rows per Table Unlimited
Maximum Columns per Table 250 - 1600 depending on column types
Maximum Indexes per Table Unlimited

Это не значит, что его рекомендую, - у вас невнятная постановка задачи, нельзя сказать определенно, что вам надо.

Написано более трёх лет назад
Артем @devspec Автор вопроса

stratosmi, Я ничего не считаю, потому задал здесь этот вопрос.

Написано более трёх лет назад
stratosmi @stratosmi

Артем,
Я ничего не считаю, потому задал здесь этот вопрос.

Вы ничего не задали.
Вы придумали, что вам нужна BigData.
Если вы желаете получить внятную помощь - то внятно формулируйте задачу.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

13 комментариев

Артем @devspec Автор вопроса

Что будет делать система с миллионом строк после запроса

Преобразовывать в 4 формата файла, архивировать в 1 архив и отдавать пользователю.

Написано более трёх лет назад
FanatPHP @FanatPHP

Артем, тогда сразу архив и хранить.

Написано более трёх лет назад
Артем @devspec Автор вопроса

FanatPHP, Сейчас так и происходит. Но есть неудобства в виде:
1. Если понадобится доступ ко всем строкам - придется разархивировать все архивы (а их уже около миллиона), затем делать поиск или другие операции с каждым из миллиона файлов. Куда проще сделать условный select disninct и получить сразу нужные результаты.
2. Нет резервирования "из коробки", которое есть в базах данных, когда настроил репликацию и получаешь копию базы на другом компе в режиме онлайн. Сейчас приходится для этого лить на FTP - жуткий костыль же.
3. Огромное количество файлов, даже при правильном подходе к организации иерархии, не лучшим образом сказывается на производительности жестких дисков и скорости доступа.

Написано более трёх лет назад
FanatPHP @FanatPHP

Артем, Можно хранить в БД, а файлы перегенерировать при внесении в неё изменений.
Этим решаются первые два пункта.

Третий пункт я не понял. Вы всерьез считаете, что получить по сети некий объем данных, записать его в 4 файла, создать из них пятый и потом отдать пользователю - это даже в теории может быть быстрее, чем просто отдать существующий файл?

> Огромное количество файлов, даже при правильном подходе к организации иерархии, не лучшим образом сказывается на производительности

Обязательно расскажите об этом всем CDN провайдерам, а то они и не догадываются, что находятся на грани катастрофы.

Написано более трёх лет назад
Артем @devspec Автор вопроса

Третий пункт я не понял. Вы всерьез считаете, что получить по сети некий объем данных, записать его в 4 файла, создать из них пятый и потом отдать пользователю - это даже в теории может быть быстрее, чем просто отдать существующий файл?

Конечно, это не будет быстрее.
Вопрос-то в другом.
Вопрос в том, как лично вы спроектируете подобный сервис - с использованием набора файлов или с использованием БД или другой технологии, специально предназначенной для хранения большого объема данных? С точки зрения надежности и удобства хранения и извлечения данных.

Написано более трёх лет назад
FanatPHP @FanatPHP

Артем, я написал выше. Если "выбрать все строки, принадлежащие юзеру Х" это наиболее частый запрос, результат надо кэшировать.
Можно сделать порог, до 100 строк отдавать динамически, остальное кэшировать в файлы

Написано более трёх лет назад
Артем @devspec Автор вопроса

Можно, кстати, сделать красивее. Странно, что никто не подсказал.
Можно и в файлах хранить, и в базе. Пользователям быстро отдавать файлы, а в случае необходимости быстрого доступа ко всем строкам или какого-резкого падения - доставать из базы или её реплики.

Написано более трёх лет назад
FanatPHP @FanatPHP

Артем, странно, что именно это я и написал 2 часа назад.

Написано более трёх лет назад
Артем @devspec Автор вопроса

FanatPHP, Да, я видимо не воспринял информацию. Спасибо.

Написано более трёх лет назад
stratosmi @stratosmi

Огромное количество файлов, даже при правильном подходе к организации иерархии, не лучшим образом сказывается на производительности

Обязательно расскажите об этом всем CDN провайдерам, а то они и не догадываются, что находятся на грани катастрофы.

У них выбора нет. Они услуги предоставляют. И не могут вместо миллиона файлов отдать один. Они могут отдавать только так, как пользователю/покупателю услуг надо.
Все правильно написано - получить один огромный файл быстрее, чем миллион мелких.

Написано более трёх лет назад
АртемЪ @Jump

Артем,
Огромное количество файлов, даже при правильном подходе к организации иерархии, не лучшим образом сказывается на производительности жестких дисков и скорости доступа.
О каком объеме информации идет речь в сумме по всем клиентам - ориентировочно? Гигабайты, сотни гигабайт, террабайты.

Написано более трёх лет назад
АртемЪ @Jump

Артем,
Можно и в файлах хранить, и в базе. Пользователям быстро отдавать файлы, а в случае необходимости быстрого доступа ко всем строкам или какого-резкого падения - доставать из базы или её реплики.
Это называется кэширование :)

Написано более трёх лет назад
Артем @devspec Автор вопроса

АртемЪ, ну типа да )

Написано более трёх лет назад

8 комментариев

stratosmi @stratosmi

10тыс пользователей * 1 млн строк по 200 байт = 2ТБ - максимальный размер базы - великовато для MySQL, но работать будет даже в лоб.

Этого им хватит на 9 лет при теперешнем темпе роста данных

в мемкеш, боюсь, вся база не поместится - она сейчас около 100 гб и каждый день увеличивается на ~500 Мб
как насчет всяких хадупов и прочего похожего?

Написано более трёх лет назад
hx510b @hx510b

stratosmi, Если индексы сделаны нормально в БД - mysql будет вытаскивать все бодро - memcached тут зачем?

Написано более трёх лет назад
Артем @devspec Автор вопроса

hx510b, А индексы нормально - это как? B-Tree по user_id - это нормально или нет?

Написано более трёх лет назад
stratosmi @stratosmi

hx510b,
Если индексы сделаны нормально в БД - mysql будет вытаскивать все бодро - memcached тут зачем?

Мемкэш тут не при чем.
Приведена цитата автора темы, в которой упомянут размер данных. То, что в этом же предложении попался мемкэш - к делу не относится.

Написано более трёх лет назад
stratosmi @stratosmi
Артем,
А индексы нормально - это как? B-Tree по user_id - это нормально или нет?

Данные то только у тебя.
Нужно это тебе
Вот ты сам и попробуй и сравни на своих данных
Написано более трёх лет назад
hx510b @hx510b

Артем, да будет работать. на 900 гб базе работало

Написано более трёх лет назад
Артем @devspec Автор вопроса

stratosmi, Ну в принципе логично. Попробую.

Написано более трёх лет назад
Артем @devspec Автор вопроса

hx510b, спасибо

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 202 просмотра
0

ответов
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 854 просмотра
2

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 235 просмотров
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 137 просмотров
3

ответа
Поисковые системы

Простой
Как подменить домен в поисковике?
- 2 подписчика
- 27 мая
- 155 просмотров
2

ответа
Поисковые системы

Простой
Какие книги посоветуете для изучение того как работает поисковая система?
- 1 подписчик
- 02 апр.
- 153 просмотра
1

ответ
Поисковые системы

Средний
Как найти информацию о файле?
- 1 подписчик
- 25 мар.
- 89 просмотров
0

ответов
Поисковые системы

Простой
Полезные инструменты для проверки мошенников?
- 2 подписчика
- 15 февр.
- 676 просмотров
3

ответа
Поисковая оптимизация

+1 ещё

Простой
Хочу создать копию своего сайт,будет ли индексироватся?
- 1 подписчик
- 25 дек. 2024
- 158 просмотров
3

ответа
Изображения

+1 ещё

Простой
Возможно ли в 2024-м найти картинку обратным поиском?
- 1 подписчик
- 04 дек. 2024
- 293 просмотра
1

ответ
Показать ещё Загружается…

UI/UX Designer (приложение для поиска подруг)

SUMMEET

от 1 000 до 1 200 $

React Native разработчик в VSRAP

VSRAP Shop • Санкт-Петербург

от 150 000 до 220 000 ₽

Системный аналитик

Bitbanker.ru

от 240 000 ₽

Какая сейчас технология используется?
Что гугл подсказал?
sim3x, Сейчас все в файлах хранится, что накладывает некоторые ограничения и неудобства.
Гугл подсказывает большое количество разных систем, но интересует именно опыт сограждан, а не десятки попыток применить ту или иную технологию, что равно потраченным впустую неделям.
Артем, 3-й пункт будет означать на практике необходимость считывания миллиона строк данных за миллисекунды. А для чтения такого объема данных нужна высокая скорость чтения с диска.
Роман Мирр, вопросы железа я бы пока оставил в стороне, нет проблем поставить какой-нибудь рейд на SSD для увеличения скорости выборки, равно как и организовать кластер из нескольких машин
вопрос именно в технологии, которая это потянет
Артем, поисковиков, в открытом доступе два
sphinxsearch
elastic
sim3x, мне не нужен полнотекстовый поиск
Артем, тогда берите постгрес, делайте 3NF, делайте несколько слейвов
Или мемкеш

В зависимости умении и требований к сохранности данных
sim3x, в мемкеш, боюсь, вся база не поместится - она сейчас около 100 гб и каждый день увеличивается на ~500 Мб
как насчет всяких хадупов и прочего похожего?
Артем, 1Тб ram не было проблемой поставить на 1 машину 3 года назад

У вас требование - мс задержки
Учитывая, что у вас будет 10-500мс на сети, то ответ от СУБД требуется дать за <1мс

Укажите ваши приоритеты
sim3x, да, с памятью понятно, возможно это хороший вариант, буду думать в сторону in-memory databases, спасибо
Артем, а в чем необходимость делать выборку всех миллионов записей за один запрос? Ведь миллион строк за 1 раз не просто ни отобразить ни на экране, ни передать по сети?! Это тупо много данных.
Артем,
нет проблем поставить какой-нибудь рейд на SSD для увеличения скорости выборки, равно как и организовать кластер из нескольких машин вопрос именно в технологии, которая это потянет

Есть проблема.
У вас нет компетентных специалистов, которые это смогут сделать.
Вы даже не понимаете, что RAID на SSD не панацея.
равно как и организовать кластер из нескольких машин
вопрос именно в технологии, которая это потянет

Вы серьезно считаете, что ваши так называемые "специалисты", называющие словом BigData самую что ни на есть рядовую задачу, способны будут поднять кластер?
Вопрос: какую из современных bigdata-технологий

3. Поиск и выборка должны происходить максимально быстро (миллисекунды), независимо от количества юзеров и строк в базе.

Бигдата и "мгновенно" - это 2 взаимоисключающих понятия.
Поиск и выборка должны происходить максимально быстро (миллисекунды), независимо от количества юзеров и строк в базе.

Независимо от количества? Ха-ха.
А если у пользователя будет данных на 100 петабайтов?
Найти-то вы может и найдете, но как вы прочитаете с диска и отдадите в сеть 100 петабайтов за миллисекунду.
stratosmi, у нас вообще нет специалистов - всем занимаюсь я один. И фронтендом, и бекэндом, и администрированием на данный момент двух серверов. Разве что маркетингом не занимаюсь пока что ) Компетенции - дело наживное, научусь.
Артем,
в мемкеш, боюсь, вся база не поместится - она сейчас около 100 гб и каждый день увеличивается на ~500 Мб
как насчет всяких хадупов и прочего похожего?

Через 5 лет будет всего лишь 1 терабайт.

Вы что, серьезно, считаете эти детские объемы достойными Хадупа с его нормальной работой на петабайтах данных?

Самый банальный PostgreSQL способен на куда как большее

Limit Value
Maximum Database Size Unlimited
Maximum Table Size 32 TB
Maximum Row Size 1.6 TB
Maximum Field Size 1 GB
Maximum Rows per Table Unlimited
Maximum Columns per Table 250 - 1600 depending on column types
Maximum Indexes per Table Unlimited

Это не значит, что его рекомендую, - у вас невнятная постановка задачи, нельзя сказать определенно, что вам надо.
stratosmi, Я ничего не считаю, потому задал здесь этот вопрос.
Артем,
Я ничего не считаю, потому задал здесь этот вопрос.

Вы ничего не задали.
Вы придумали, что вам нужна BigData.
Если вы желаете получить внятную помощь - то внятно формулируйте задачу.

Answer 1 · 2018-08-24 15:09:39

Никакую. К big data указанные объемы отношения не имеют.
Подойдет любая СУБД, так что можно выибарть ту, которая больше знакома.

Тем более, что

Строки могут повторяться между юзерами.

Т.е. в нормализованном виде это будет занимать еще меньше места.

Лично мне куда интереснее другой вопрос. Что будет делать система с миллионом строк после запроса

"выбрать все строки, принадлежащие юзеру Х"

.

Answer 2 · 2018-08-25 04:32:49

10тыс пользователей * 1 млн строк по 200 байт = 2ТБ - максимальный размер базы - великовато для MySQL, но работать будет даже в лоб.
Раз строки повторяются, то нужно сделать словарь строк, и оперировать уже id строки.
Раз таблица пользователь-строки может оказаться очень длинной и ее изменение будет приносить большие задержки. То есть смысл резделить таблицу с информацией о строках пользователей на несколько таблиц (партиционирование), разделив весь пул пользователей по конкретным таблицам, чем больше таблиц - тем легче будет проходить обновления.
итого имеем такую структуру:

таблица users,
в которой id пользователя, некое внешнее описание пользователя, номер/имя таблицы с данными

таблица dict,
в которой храним уникальные строки и их id

пачка таблиц usersdata1...N,
в которых храним id пользователя и id строки, если у пользователя строки могут повторяться - то уникальный key id, чтобы хранить дубликаты строк и вытягивать их в порядке key id
чем больше N - тем веселее будут проходить изменения.

Выборка видится такой - ищем в users пользователя, берем его id и знание какую таблицу userdata надо опрашивать, затем выбрать из userdata список id строк, сразу подтягивая строки из dict.
Выбор таблицы можно делать, не храня данные о таблицах, например, по первым символам хеша "имени пользователя". Но такой принцип делает фиксированным количество таблиц userdata, это может оказаться не очень гибким способом для последующих изменений.

Потом такую базу можно перенести на raid из ssd, чтобы чтение происходило с минимальными задержками на чтение.
Если захочется еще повысить производительность, то userdataN можно размазать на разные хосты. При этом таблицы dict и users реплицировать между хостами средствами mysql.
Можно и миллионы пользователей так обслуживать, имя соответствующий парк серверов.

Какую выбрать технологию для хранения и выборки больших данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт