Redis vs SQLite vs PostgreSQL

Question

HiltoN @HiltoN

Redis vs SQLite vs PostgreSQL

Решил сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов (по ключу, по индексу и т.п.). Представил одинаковую предметную область — очередь сообщений: для SQLite и PostgreSQL это одинаковые схемы, для Redis использовались сортированные списки, т.к. другие варианты хранения не подошли для описанной задачи. Запросы: поиск сообщения по ключу, удаление сообщения по ключу из очереди, выборка сообщений старше n минут, выборка и удаление сообщения из начала очереди.

10 млн строк, все базы занимают почти по 2 ГБ (больше к сожалению не было RAM). Результат: если база влазит в память, то скорость выполнения запросов примерна одинакова для разных «СУБД» (простые операции — около 3000 операций в секунду, посложнее — около 600). В чём же тогда прелесть Redis-а? Понимаю, что он подходит для узконаправленных задач, например, только поиск по ключу, т.е. для ограниченных по размеру кешей. В остальном одни минусы: и за памятью следи, чтобы база влезала в RAM (PG же просто замедлиться перейдя к дисковому чтению, Redis же начнёт свопится); и набор команд и типов данных ограничен.

PS: Что вы используете для надёжного перманентного хранения данных и быстрого выполнения простых запросов? Холивар PG vs MySQL можно опустить, разницы между ними практически не будет.

Вопрос задан более трёх лет назад
16502 просмотра

Комментировать

Подписаться 18 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

9 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 6

4 комментария

HiltoN @HiltoN Автор вопроса

Спасибо, повеселили.
И тем не менее задача не из головы, а реальная и каждый инструмент неплохо стравился с задачей и по-моему все они при примерно равных весовых категориях (я же не сравнивал с ораклом), но с немного отличающимся функционалом (т.е. часть функционала используется для решения задачи, часть нет). По вашему не бывает задач, которые успешно решаются несколькими способами? Или вы думаете что для конкретной задачи есть идеальный инструмент в котором напрочь отсутсвует лишняя функциональность?

Написано более трёх лет назад
CKOPOBAPKuH @CKOPOBAPKuH

SQLite — встраиваемая база. её можно скорее всего сравнивать с другими встраиваемыми базами. kyoto/tokio cabinet например.
Postgres/mysql и redis — разные весовые категории, у одних есть транзакции, тьюринг-полный sql, гарантированная консистентность, работа с данными которые значительно превышают объём ram и куча других штук, и redis, то есть простейшие структуры данных лежащие в оперативке + небольшой слой для поддержания персистентности.

вы декларировали цель «сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов».
ваша задача, даже если бы все меряли правильно, не поможет узнать «производительность больших плоских таблиц и простейших запросов». и к очереди она не имеет никакого отношения, потому что у очереди есть ровно 2 операции: «взять» и «положить».
и это не говоря уже о том, что понятие «производительность» очень широкое и его можно трактовать как угодно. некоторые меряют скорость работы единичных аналитических запросов, которые выполняются десятки минут. некоторые меряют время отклика определенного количества мелких запросов с определенного количества потоков. некоторые меряют максимально возможное количество мелких запросов но чтобы время отклика не превышало пороговое, а количество одновременных запросов подбирают.

а что меряете вы? вы меряете задержки у единичных неконкурентных запросов. померяли. результаты ожидаемы.

Написано более трёх лет назад
HiltoN @HiltoN Автор вопроса

> «производительность больших плоских таблиц и простейших запросов».
> и к очереди она не имеет никакого отношения, потому что у очереди
> есть ровно 2 операции: «взять» и «положить».
Очередь — очень большая, сотни миллионов строк. Отсюда и слова про большую проскую таблицу. И кроме положить и взять (брать кстати нужно с начала очереди), нужно ещё — взять всё что накопилось за N минут + убрать всё это после обработки. И желательно делать это в нескольких потоках, т.е. быть уверенным что только ты взял этот элемент с очереди. И да, мои тесты примитивные, но отвечают на один из моих вопросов — сколько операций в секунду даст выполнить база когда к ней будут обращаться с одного потока.

Написано более трёх лет назад
CKOPOBAPKuH @CKOPOBAPKuH

> сколько операций в секунду даст выполнить база когда к ней будут обращаться с одного потока
> сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов

я вижу тут противоречие. нет, ну на вопрос «сколько операций в секунду даст выполнить база из одного потока» ваши тесты отвечают. я именно поэтому пример с большим пальцем ноги и привёл.

Написано более трёх лет назад

9 комментариев

HiltoN @HiltoN Автор вопроса

Знаком с монго, но он по задумке не очень-то надёжен при работе на одном сервере, требует сервером для репликации и выделенных конфиг-серверов. Конечно всё это можно развернуть на одной машине, но толку от этого мало. Мне же нужно обеспечить максимальную надёжность хранения данных в случае креша.

Про недостаток в виде отсутсвия джойнов — вы ещё наверное с Redis-ом не знакомы, он даже по значениям искать не умеет, лишь по ключам.

Написано более трёх лет назад
Stdit @Stdit

Replica Set очень хороша, можно даже сделать на одной машине на разных портах (хотя я и делал всегда на разных)

Написано более трёх лет назад
Stdit @Stdit

В смысле, машинах

Написано более трёх лет назад
Stdit @Stdit

Да, и вот ещё что подумал: если вам так нужна надёжность, в чём проблема открыть дополнительную вдску?

Написано более трёх лет назад
cystbear @cystbear

Single machine durability резко возрос в MongoDB после версии 1.6. Вот полезная статья на эту тему www.thebuzzmedia.com/mongodb-single-server-data-durability-guide/

Написано более трёх лет назад
Zelgadis @Zelgadis

Так, во первых join'ы не нужный в mongo, встраиваемые документы и DBRef наше все. А во вторых, в mongo уже давно есть журнал изменений и он включен по-умолчанию. А Replica Set имеет смысл только если 3 разных машины иначе это не Replica Set.

Написано более трёх лет назад
Stdit @Stdit

Join нужны, например, когда надо запросить все документы, у которых во вложенном документе (через DBRef) значение поля удовлетворяет какому-то условию. В Mongo это можно сделать только запросив сначала все вложенные через DBRef документы по условию, а потом запросив $in-ом родителей по получившимся DBRef-ам. Это может быть весьма затратно при большом количестве связей.

Написано более трёх лет назад
Zelgadis @Zelgadis

Все же большая часть проблем решает встраиванием и индексом на DBRef. Если все же нужен Join — а тут ли инструмент вы используете? или а правильно ли вы сделали дизаин приложения? Нельзя же реляционую модель мышление на монгу накладывать.

Написано более трёх лет назад
Stdit @Stdit

Никто не говорит о том, правильно ли сделан выбор. Невозможность джойнов — это особенность Mongo, которую нужно иметь в виду при выборе субд, вот и всё.

Написано более трёх лет назад

2 комментария

1 комментарий

HiltoN @HiltoN Автор вопроса

Тесты простейшие, без параллельных запросов, такого плана:

#!/usr/bin/python
import sqlite3
import random
from datetime import datetime

conn = sqlite3.connect('sqlite.db')
cur = conn.cursor()
startTime = datetime.now()
for i in range(1,1000):
	x = random.randint(1,10000000)
	cur.execute('SELECT * FROM t WHERE id=?', (x,))
	cur.fetchall()

print(datetime.now()-startTime)

#!/usr/bin/python
import redis
import random
from datetime import datetime

r = redis.StrictRedis(host='127.0.0.1', port=6379, db=0)
startTime = datetime.now()

for i in range(1,1000):
	x = random.randint(1,10000000)
	r.zscore('queue',x)

print(datetime.now()-startTime)

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 91 просмотр
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
SQLite

Простой
Стоит ли использовать в backend базу данных SQLite?
- 1 подписчик
- 16 апр.
- 297 просмотров
2

ответа
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 353 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 171 просмотр
2

ответа
Redis

+2 ещё

Простой
Выбор брокеров сообщений в зависимости от задачи?
- 1 подписчик
- 07 апр.
- 131 просмотр
1

ответ
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 333 просмотра
3

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 313 просмотров
2

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 350 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2012-05-03 21:33:09

1. В Redis лучше представлена работа с коллекциями. Простой пример — инкрементальный счётчик. Вы делаете incrby/hincrby для любого ключа, не заботясь о его наличие в хранилище. В Postgres аналогичная функциональность на основе последовательностей (nextval('foo')) подразумевает, что вы уже создали последовательность 'foo' ранее. Это подталкивает вас на написание процедур, которые перед попыткой изменить счётчик, сначала проверяют его наличие, при необходимости создают его и только потом изменяют. Больше ручной работы.

2. Структуры данных в Redis оптимизированы либо под быстрый поик О(1), либо под компактность и приемлемую произволительность O(N), O(log(N)). Практически всегда получается обходиться простыми или вложенными хеш-таблицами с О(1) или О(n). В Postgres вы практически всегда пользуетесь той или иной разновидностью B/R-tree, GiST/GIN индексов со сложностью O(log(N)(+N)). До версии 8.4, индексы типа HASH в Postgres имели практически схожую с B-tree скорость поиска, поэтому их применение не имело никакого смысла. Сейчас, в версии 9.1, смысла стало больше, но не намного — HASH индексы не поддерживают Write-Ahead Log и при сбоях требуют ручной переиндексации:
"Hash index operations are not presently WAL-logged, so hash indexes might need to be rebuilt with REINDEX after a database crash. They are also not replicated over streaming or file-based replication. For these reasons, hash index use is presently discouraged." http://www.postgresql.org/docs/9.1/static/indexes-types.html

У себя в проектах, я использую и Redis, и Postgres. Первый — как эффективную систему для сбора онлайн-статистики (счетчики-лайки, различные метрики), а второй — как хранилище для пользовательских аккаунтов и контента с его мета-информацией. При этом, наметилась тенденция переносить контент на HBase, оставляя для Postgres только задачи по ACID-обслуживанию операций с пользовательскими аккаунтами.

Answer 2 · 2012-05-04 15:37:11

Молоток vs Кувалда vs Отвёртка

Я решил выяснить, какой из инструментов лучше. Представил одинаковую задачу — ударять себя по большому пальцу ноги. Отвёртку решил держать за ручку и ударять наконечником, так как неудобно держать за наконечник и ударять ручкой. Для молотка и кувалды это одинаковые схемы. Запросы: ударить по большому пальцу и измерить время, сколько болит.

Результат: если ударить больно, то палец болит. В чём же тогда прелесть отвёртки? Понимаю, что она подходит для узконаправленных задач, например, только откручивание или закручивание, т.е. для ограниченных задач. В остальном одни минусы: и держать неудобно, и площадь поражения невелика, и по пальцу я попал только с третьего раза.

PS: Что вы используете для надёжного перманентного отбивания пальцев? Холивар классический русский молоток vs молоток из икеи можно опустить, разницы между ними практически не будет.

Answer 3 · 2012-05-03 20:40:47

Помимо РСУБД, мы используем MongoDB. Замечательная и быстрая штука, которая позволяет хранить коллекции из деревьев любой формы, строить индексы по любым их узлам, легко масштабируется горизонтально, имеет довольно мощную систему запросов на чтение и обновление. Недостаток — отсутствие джойнов, проблемы с агрегацией, они решаются путём предварительной агрегации при изменении данных или переучётом по крону.

Answer 4 · 2012-05-04 00:09:22

>В чём же тогда прелесть Redis-а?
Данные всегда в ОЗУ, когда как в РСУБД индекс может быть вытесняться на диск, данные при этом на больших объемах почти всегда на диске. Поэтому и получаем просадку производительности из-за I/O на диске. В Redis это в принципе нет, они сейчас на сколько я помню от виртуальной памяти отказались. Про О(1) Ghostwriter уже сказал. ACID таки вносит свой оверхед.

Ну и из подобной группы ПО его выделяет условная персистентность.

Answer 5 · 2012-05-04 14:33:35

Если можно перефразирую вопрос: подскажите быструю персистентную базу, которая, желательно, целиком может мапиться в память, обеспечивать высокую надёжность в случае краха системы, работать на одной машине, поддерживать мультипоточность, желательна поддержка транзакционности. Остальные фишки не важны.

На мой взгляд все три описанные в сабже системы подходят под определение (если нет — исправляйте). Что ещё можете посоветовать?

Answer 6 · 2012-05-04 14:36:23

gro @gro

где тесты?
параллельные запросы тестировали?

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2012-05-08 13:55:00

1. О каких 3000 запросах в секунду идет речь? На тестовом Intel Atom 1,6 ГГц в скрипте на PHP я получил 12000 запросов в секунду GET/SET

2. Непонятно почему вы не использовали списки (Lists), которые по сути есть готовая реализация очереди?

Redis vs SQLite vs PostgreSQL

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт