Какую технологию выбрать для работы с базой данных?

Question

NickBor @NickBor

Базы данных

Какую технологию выбрать для работы с базой данных?

Добрый день! Помогите ответить на такой вопрос связанный с базами данных. Планируется создать базу данных объемом порядка 100-300 Гб (Если говорить о строках, то несколько миллиардов строк в таблице). Например, данные с множества датчиков, которые поступают каждый час на протяжении годы, и потом нужно работать с этими данными. Необходимо делать запросы для выгрузки данных. Как лучше поступить, организовать базу данных с кластеризацией этих данных и использовать PostgreSQL или применять какие-либо методы работы с BigData? Если PostgreSQL, то какие порядки по времени обработки запроса могут быть осуществимы? (допустим нужно выгрузить таблицу на 100 000 строк)? Спасибо за советы!

Вопрос задан более трёх лет назад
152 просмотра

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 81 просмотр
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 164 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4813 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 380 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 209 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 146 просмотров
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 221 просмотр
1

ответ
Базы данных

Простой
Какие есть утилиты для автоматизированного проектирования БД?
- 3 подписчика
- 02 апр.
- 2762 просмотра
5

ответов
Базы данных

Простой
RBAC: когда создавать нового пользователя в ДБ?
- 2 подписчика
- 26 февр.
- 204 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Какую скачать СУБД для БД SQlite?
- 1 подписчик
- 15 янв.
- 527 просмотров
5

ответов
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Измените заголовок вопроса так, чтобы он кратко и конкретно описывал его суть.
Необходимо делать запросы для выгрузки данных

А какие именно запросы?
Если данных прямо очень много и нужно их быстро записывать, и чтобы ещё надёжно хранилось - можно попробовать Cassandra.
Если данные привязаны ко времени, то можно взять time-series расширение для постгреса - TimescaleDB

допустим нужно выгрузить таблицу на 100 000 строк

Зависит от запроса. Если это SELECT * FROM table, то не сильно долго.

Answer 1 · 2021-04-09 16:31:28

Конкретный ответ на ваш вопрос в данной формулировке дать нельзя. Многое зависит от структуры БД, от сценариев работы с ней, интенсивности запросов, соотношения запросов на чтение к запросам на запись и т.д. и т.п. Вероятнее всего, это вопрос не к СУБД, а к архитектуре вашего приложения. В целом, у меня в одном из проектов запросы на чтение по индексу из таблицы с 23 миллиардами записей укладывались в десятки миллисекунд при стандартных настройках и не особо мощном сервере.

Answer 2 · 2021-04-09 16:44:21

Если у вас большой объем показаний датчиков с временными метками - то стоит присмотреться к специализированным БД

Answer 3 · 2021-04-09 16:57:52

Огромные таблицы однотипных и упорядоченных по времени данных - это моветон. Партиционирование таблиц по дням/месяцам и схлопывание старых данных в агрегаты должны помочь - именно так, например, происходит в БД Заббикса.

Answer 4 · 2021-04-09 18:40:16

Вряд ли скажут точно.
Скорость запроса зависит от всего. От размера конкретной таблица, от того какие данные, причем важно и тип и их схожесть, чтобы было проще индексы строить.
И от скорости ssd
Но я бы сказал, что 100-300 гб это далеко не бигдата. Это просто большая база, с которой справится и mysql и postgres, тем более что взяв сервер с 128гб оперативки, почти треть можно в памяти кешировать.

В вашем случае - без перфоманс тестов никто не скажет даже примерный порядок.
P.S. И да, если ваши данные в основном числа (таймстамп и числовые показатели, то time series data bases могут с этим справиться лучше). С другой стороны они не так популярны и возможно не так развиты.

Answer 5 · 2021-04-09 19:34:17

Попробуйте одну из TSDB, как указал Владимир Куц .

В частности, хранилище VictoriaMetrics. В качестве языка запросов применяется PromQL.

Возможность использования в качестве долговременного хранилища данных, подключенного к Prometheus и Grafana.

Что касается преимуществ по отношению с другими, то сходите по ссылке выше.

Какую технологию выбрать для работы с базой данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт