Как выбрать базу данных?

Question

tttttv @tttttv

Как выбрать базу данных?

Коллеги, добрый вечер. Есть необходимость писать в базу данных по 10к записей в секунду. Отсюда вопрос - обычный постгрес такое потянет? Просто через относительно небольшое время в базе появится такими темпами несколько миллиардов записей (хотя они и очень простые). Есть ощущение, что постгрес в таком случае будет медленно работать.

Чтение относительно редко из бд происходит, только запись очень частая

Вопрос задан более трёх лет назад
445 просмотров

4 комментария

Подписаться 2 Простой 4 комментария

Василий Банников @vabka

А какие данные и как происходит чтение? По id? Списком по фильтру? Для аналитики?
Какие требования по доступности данных?
Будет ли ок, если данные после отправки не сразу будут доступны для чтения?
Что это вообще за данные?
Это какие-то события привязанные ко времени? Логи?
Сколько вообще байт одна запись занимает?

Написано более трёх лет назад
AUser0 @AUser0

Может проще писать такие поточные данные в простой файл?

Написано более трёх лет назад
tttttv @tttttv Автор вопроса

Василий Банников, GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.

Написано более трёх лет назад
Василий Банников @vabka

tttttv, думаю, вполне можно взять какую-нибудь базу на временных рядах. TimeScale тот же самый например.
Чтобы чуть меньше нагружать инсертами - собирать в батчи хотябы по тысяче записей.
На чтение должно легко справиться

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Hi-TECH Academy

Администрирование PostgreSQL 16. Базовый курс

3 дня

Далее
OTUS

PostgreSQL. Advanced

4 месяца

Далее
Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Postgres выдаёт unknown для типа char — в чём ошибка?
- 2 подписчика
- 8 часов назад
- 135 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- вчера
- 69 просмотров
1

ответ
PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 02 дек.
- 229 просмотров
2

ответа
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 435 просмотров
4

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 360 просмотров
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 251 просмотр
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 231 просмотр
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 86 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 264 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 115 просмотров
1

ответ
Показать ещё Загружается…

DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Golang Developer

SMALL

от 280 000 до 350 000 ₽

Golang Developer

SMALL

До 370 000 ₽

А какие данные и как происходит чтение? По id? Списком по фильтру? Для аналитики?
Какие требования по доступности данных?
Будет ли ок, если данные после отправки не сразу будут доступны для чтения?
Что это вообще за данные?
Это какие-то события привязанные ко времени? Логи?
Сколько вообще байт одна запись занимает?
Может проще писать такие поточные данные в простой файл?
Василий Банников, GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.
tttttv, думаю, вполне можно взять какую-нибудь базу на временных рядах. TimeScale тот же самый например.
Чтобы чуть меньше нагружать инсертами - собирать в батчи хотябы по тысяче записей.
На чтение должно легко справиться

Answer 1 · 2022-08-08 11:28:50

GPS-маяки местоположение отправляют, несколько сот тысяч маяков. Чтение истории местоположений из админки с картой. Байт до 50 занимают наверное.

В таком сценарии TimeScaleDB вполне должен справиться.
Чтобы чуть меньше нагружать инсертами - можно добавить несколько экземпляров базы с репликацией и загружать батчами

Answer 2 · 2022-08-07 21:18:39

Ни один адекватный разработчик не будет не разобравшись с задачей писать 10k событий как отдельные события, в подавляющем большинстве случаев данные собираются в пакеты и только тогда пишутся, причем зачастую можно так и хранить.

Потому что все зависит от того, как читаешь эти данные и как ищешь в них. И возможна ли модификация данных (наиважнейший вопрос, отрицательный ответ на который позволит через партиционирование убрать зависимость скорости от объемов данных)

А ее, огромное количество проблем (тормозов) создают индексы (напрямую вытекающие из того, как в этих данных собираетесь искать), и если их убрать, то возможно очень многое.

Отделяй модуль/место сбора оперативных данных от их анализа, например делай две базы, отличающиеся как по месту размещения так и по типу (например оперативные данные можно просто собирать в ram, с космическими скоростями, без sql отдельным приложением-демоном), а аналитику собирать паралельно и периодически, под задачу.

Answer 3 · 2022-08-08 12:01:31

Есть такая старая поговорка из тайм-менеджмента - "что СРОЧНО - то не важно".

Если есть некий источник который продуцирует записи со скоростью 10к в секунду и мы хотим писать их сразу (мгновенно) то наверное у нас есть такой-же потребитель который так-же быстро способен их потребить.

А есть вообще такой? Мне сложно себе представить. Если это биг-дата со стримингом - то там надо использовать не постгрес а другие системы. Kafka+Spark например. Но я не буду давать таких советов потому что люди обычно сидят на консервативных системах типа реляционок и хотят делать на них все. Просто им так удобнее.

Давайте немного арифметики. Если мы формируем 10к в секунду то за сутки у нас набегает 10000L * 60 * 60 * 24 = 864 000 000 или восемьсот миллионов строк. Это вот если загрузка будет постоянно такая.

Answer 4 · 2022-08-10 22:48:29

Есть необходимость писать в базу данных по 10к записей в секунду. .....Чтение относительно редко из бд происходит, только запись очень частая

Не проще писать в файл? Это не шутка. Если только писать и практически не читать. Логи nginx легко могут лететь с такой скоростью.

Answer 5 · 2022-08-07 21:27:46

обычный clickhouse такое потянет
а так задача big data решается ETLами , в которых, конечно, Постгресу есть достойное место, но не всегда в первичном звене

Как выбрать базу данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт