Как выбрать базу данных?

Question

tttttv @tttttv

Как выбрать базу данных?

Коллеги, добрый вечер. Есть необходимость писать в базу данных по 10к записей в секунду. Отсюда вопрос - обычный постгрес такое потянет? Просто через относительно небольшое время в базе появится такими темпами несколько миллиардов записей (хотя они и очень простые). Есть ощущение, что постгрес в таком случае будет медленно работать.

Чтение относительно редко из бд происходит, только запись очень частая

Вопрос задан более трёх лет назад
443 просмотра

4 комментария

Подписаться 2 Простой 4 комментария

Василий Банников @vabka

А какие данные и как происходит чтение? По id? Списком по фильтру? Для аналитики?
Какие требования по доступности данных?
Будет ли ок, если данные после отправки не сразу будут доступны для чтения?
Что это вообще за данные?
Это какие-то события привязанные ко времени? Логи?
Сколько вообще байт одна запись занимает?

Написано более трёх лет назад
AUser0 @AUser0

Может проще писать такие поточные данные в простой файл?

Написано более трёх лет назад
tttttv @tttttv Автор вопроса

Василий Банников, GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.

Написано более трёх лет назад
Василий Банников @vabka

tttttv, думаю, вполне можно взять какую-нибудь базу на временных рядах. TimeScale тот же самый например.
Чтобы чуть меньше нагружать инсертами - собирать в батчи хотябы по тысяче записей.
На чтение должно легко справиться

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 13 часов назад
- 76 просмотров
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 2 подписчика
- 03 нояб.
- 130 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 178 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 221 просмотр
4

ответа
PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 280 просмотров
5

ответов
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 315 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 219 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 143 просмотра
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 127 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 438 просмотров
1

ответ
Показать ещё Загружается…

Администратор баз данных/DBA (MSSQL + PostgreSQL)

Outlines Tech

До 235 000 ₽

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

А какие данные и как происходит чтение? По id? Списком по фильтру? Для аналитики?
Какие требования по доступности данных?
Будет ли ок, если данные после отправки не сразу будут доступны для чтения?
Что это вообще за данные?
Это какие-то события привязанные ко времени? Логи?
Сколько вообще байт одна запись занимает?
Может проще писать такие поточные данные в простой файл?
Василий Банников, GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.
tttttv, думаю, вполне можно взять какую-нибудь базу на временных рядах. TimeScale тот же самый например.
Чтобы чуть меньше нагружать инсертами - собирать в батчи хотябы по тысяче записей.
На чтение должно легко справиться

Answer 1 · 2022-08-08 11:28:50

GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.

В таком сценарии TimeScaleDB вполне должен справиться.
Чтобы чуть меньше нагружать инсертами - можно добавить несколько экземпляров базы с репликацией и загружать батчами

Answer 2 · 2022-08-07 21:18:39

Ни один адекватный разработчик не будет не разобравшись с задачей писать 10k событий как отдельные события, в подавляющем большинстве случаев данные собираются в пакеты и только тогда пишутся, причем зачастую можно так и хранить.

Потому что все зависит от того, как читаешь эти данные и как ищешь в них. И возможна ли модификация данных (наиважнейший вопрос, отрицательный ответ на который позволит через партиционирование убрать зависимость скорости от объемов данных)

А ее, огромное количество проблем (тормозов) создают индексы (напрямую вытекающие из того, как в этих данных собираетесь искать), и если их убрать, то возможно очень многое.

Отделяй модуль/место сбора оперативных данных от их анализа, например делай две базы, отличающиеся как по месту размещения так и по типу (например оперативные данные можно просто собирать в ram, с космическими скоростями, без sql отдельным приложением-демоном), а аналитику собирать паралельно и периодически, под задачу.

Answer 3 · 2022-08-08 12:01:31

Есть такая старая поговорка из тайм-менеджмента - "что СРОЧНО - то не важно".

Если есть некий источник который продуцирует записи со скоростью 10к в секунду и мы хотим писать их сразу (мгновенно) то наверное у нас есть такой-же потребитель который так-же быстро способен их потребить.

А есть вообще такой? Мне сложно себе представить. Если это биг-дата со стримингом - то там надо использовать не постгрес а другие системы. Kafka+Spark например. Но я не буду давать таких советов потому что люди обычно сидят на консервативных системах типа реляционок и хотят делать на них все. Просто им так удобнее.

Давайте немного арифметики. Если мы формируем 10к в секунду то за сутки у нас набегает 10000L * 60 * 60 * 24 = 864 000 000 или восемьсот миллионов строк. Это вот если загрузка будет постоянно такая.

Answer 4 · 2022-08-10 22:48:29

Есть необходимость писать в базу данных по 10к записей в секунду. .....Чтение относительно редко из бд происходит, только запись очень частая

Не проще писать в файл? Это не шутка. Если только писать и практически не читать. Логи nginx легко могут лететь с такой скоростью.

Answer 5 · 2022-08-07 21:27:46

обычный clickhouse такое потянет
а так задача big data решается ETLами , в которых, конечно, Постгресу есть достойное место, но не всегда в первичном звене

Как выбрать базу данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт