В чем лучше хранить данные для быстрого доступа?

Question

Андрей Никифоров @eoffsock

Кодер (Rails)

В чем лучше хранить данные для быстрого доступа?

Здравствуйте!

Исходные данные: есть таблица в mysql в 31 миллион строк, весом в 40Гб. Со всеми необходимыми индексами, естественно. В день эта таблица растет на 100к записей.
С записью проблем нет: записи вставляются равномерно в течении 12 часов, и с этим сервер справляется.

Проблема возникает тогда, когда нужно из таблицы читать. В таблице хранятся данные проверок сайтов, и основные запросы — это аккумуляция данных по конкретному сайту. В силу объема таблицы даже индексированные запросы не быстрые.

Возникла идея хранить в mysql только текущее состояние проверок, а архивные данные сбрасывать в другое хранилище. Но мне все еще нужно иметь возможность аналитики по архивным данным.

Посоветуйте хранилище, которое лучше подойдет для хранения таких объемов данных и аналитики по ним. Или дайте совет по ускорению текущего.

Вопрос задан более трёх лет назад
2172 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 6

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 17 часов назад
- 79 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 20 часов назад
- 93 просмотра
1

ответ
Сетевое администрирование

+2 ещё

Простой
Большая задержка в появлении файлов на сетевом диске. Как устранить проблему?
- 2 подписчика
- 13 авг.
- 274 просмотра
1

ответ
MySQL

Простой
Какой установщик MySQL использовать?
- 1 подписчик
- 12 авг.
- 183 просмотра
4

ответа
Компьютерные сети

+1 ещё

Простой
Какой есть софт для общей папки (3-5 пользователей Windows в локалке)?
- 5 подписчиков
- 10 авг.
- 4001 просмотр
12

ответов
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 105 просмотров
1

ответ
Хранение данных

Средний
Альтернативный Linux для Huawei OceanStore 5300 V3?
- 1 подписчик
- 05 авг.
- 48 просмотров
0

ответов
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 216 просмотров
1

ответ
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 246 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- 25 июл.
- 288 просмотров
1

ответ
Показать ещё Загружается…

Nest.js разработчик

Qtim

от 100 000 до 180 000 ₽

DBA в команду базовой инфраструктуры

SMALL

от 2 000 до 4 500 $

PHP-разработчик

Wanted

До 300 000 ₽

Answer 1 · 2016-02-28 18:54:57

Если прямо-таки жестко быстро нужно иметь доступ к аккумулированным данным, то нужно их также аккумулировать постоянно и постепенно в течение суток - сохраняя в специальной таблице.

Возможно это делать прямо при обновлении данных в первичной таблице или по задним числом - это смотря по характеру данных, алгоритму и требований к доступности/оперативности извлечения данных.

Если требования не жесткие, то есть данные нужно получать изредка и не очень быстро и посему нет смысла отдельную таблицу городить, то - посмотреть внимательнее на индексы и запросы. Может, используются не те индексы? Так как 40 Г для современного железа не является большой проблемой. Что говорит сервер по "план запроса"?

При жестких требованиях на скорость можно агрегировать прямо в оперативной памяти, например, при помощи Tarantool, это будет довольно быстро. Наверняка, агрегированная база данных в разы меньше основной, то есть при наличие 40 Г БД выделить 4 Г на хранение агрегированных данных в оперативной памяти для нынешних серверов не является проблемой.

Answer 2 · 2016-02-29 00:22:10

в лоб,
писать данные в суточные или недельные таблицы, при их наполнение перекидывать данные в общую таблицу и сразу раскладывать по таблицам содержащим уже агрегированные данные.

Соответственно результаты будут состоять из двух запросов: простого селекта по уже агрегированным данным + сам агрегирующий запрос по суточной таблице.

Т.е. если вы, каким либо способом, избавитесь от запросов по всему датасету в онлайне, то эта схема проработает у вас очень долго (до полного исчерпания аппаратных ресурсов) в независимости от того какую БД вы будете использовать.

Answer 3 · 2016-02-28 18:40:43

Попробуйте заюзать partition или по другому построить логику (к примеру каждый день в новую таблицу писать, использовать merge таблиц)

Answer 4 · 2016-02-28 21:46:02

перенесите часть логики на вставку - по триггеру обновляйте флаги/поля, которые так или иначе должны обновляться, там же можно и суммировать

но вообще странновато, что проблема для всего 31 млн записей и уже есть

Answer 5 · 2016-02-29 02:02:35

Было как-то дело, я работал с тестовым набором в миллионы строк на одной таблице. Попробовал ElasticSearch. По скорости работы агрегации примерно на уровне коммерческой версии MSSQL (не знал, что бесплатная версия и коммерческая MSSQL сильно отличаются по производительности, а ElasticSearch делал выборки не медленнее коммерческого MSSQL). Но в агрегацию ElasticSearch въехать не просто.

Answer 6 · 2016-02-29 09:41:07

Есть подозрение, что нужно либо добавить индексы, либо проверить существующие, потому что выборки по индексированным полям должны выполняться очень быстро при таких размерах.

В остальном, Walt Disney дал правильные советы: разделить эту таблицу на две - архивную (в идеале - партицированную) и оперативную, в которой хранить данные за определенный период, джобами по истечении срока перекидывать эти данные в архив.
Можно еще дополнительно иметь "супер-оперативную" таблицу, в которой хранить необходимые вам уже агрегированные данные, которые обновлять триггерами после вставки информации в оперативную таблицу. Таким образом, после обновления оперативной таблицы, у вас уже будет вся аналитика за текущий период (день\неделю и т.д.).

Что касается аналитики по архиву, из моего опыта, заказчик всегда просит оперативные, быстро работающие отчеты, и агрегированные отчеты по месяцам\годам из архива, которые лишь бы построились. :-)

В чем лучше хранить данные для быстрого доступа?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт