Какую субд выбрать для больших объемов данных (десятки гигабайт — сотня гигабайт)?

Question

Иван Иванов @romalu

Какую субд выбрать для больших объемов данных (десятки гигабайт — сотня гигабайт)?

Понадобилось в таблице innodb mysql размером 60 GB добавить пару индексов, использовал pt-online-schema-change, но уже почти сутки идет создание новой таблицы с новыми индексами, а размер таблицы еще не перевалил даже за 4 ГБ. Возможно есть СУБД, где изменение структуры таблицы (добавление полей, создание индексов) будет происходить не так болезненно? Также необходимо поддержка фреймворком kohana, чтобы работало ORM - очень удобно, ну и чтобы было что-то похожее на PhpMyAdmin. Что посоветуете?

Вопрос задан более трёх лет назад
1221 просмотр

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

Иван Иванов @romalu Автор вопроса

Сомневаюсь, что скрипт на php сделает быстрее чем percona-tool, ведь она ж для этого и предназначена, а операции она делает, насколько знаю, аналогичные... видимо у меня так долго из-за обилия индексов плюс делается все на production сервере...

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

Почитал про postgresql, видимо то, что мне надо. Можно добавлять столбцы и индексы без блокировки таблицы, правда есть нюансы, но это уже значительно лучше, чем плясать innodb. Спасибо за информацию, буду думать)

Написано более трёх лет назад
Fortop @Fortop

Какой-то у вас антирецепт...

Сначала добавлять данные, потом строить индексы.
у вас же все строго наоборот

Написано более трёх лет назад
Александр N++ @sanchezzzhak

Fortop: попробуйте после того как добавите 70-90гб данных создать индекс это будет очень долго особенно если таблица с партициями и замену нужно сделать с максимальным простоем.

мой способ по времени будет казаться быстрей и главное без простоев системы

1 мы данные копируем в реальном времени до определенной точки
2 создаем будущий автоинкремент скажем +500М чтобы до копировать оставшиеся данные без конфликтов dublicate primary key id....
3 переименовываем таблицы чтобы новые данные пошли уже в новую таблицу ( вот для этого и создавались индексы зарнее а не потом ) (к примеру у нас 1 час простоя это 50к рублей убытка ) кто хочет терять убыток пока у вас будут создоватся индексы 20 минут или 2 часа.
4 копируем оставшийся данные в новую таблицу

PS mysql очень долго создает индексы на больших таблицах, а если данные с партициями то можно прождать от 2 а то и 4 часов.

ну как то так((..

у фейсбука есть похожий способ и довольно занимательный
https://www.facebook.com/notes/mysql-at-facebook/o...

Написано более трёх лет назад
Fortop @Fortop

Александр N++: тут даже пробовать не надо.

Я точно знаю что сначала залить данные, а потом создать индекс это быстрее.
Чем если создать индекс, а потом заливать данные.

Схема с:
Бекграунд переносом данных в копию таблицы.
Вычислением дельты накопившейся за время переноса.
Добавлением дельты в копию.
Переименование оригинальной таблицы в бекап, а копии в оригинальную.

Создает практически нулевое время простоя. Для слабо и средненагруженных систем.

Написано более трёх лет назад

13 комментариев

Иван Иванов @romalu Автор вопроса

Во первых, не тыкай, во вторых, как админ разрулит вышеуказанную проблему добавления индекса? Если нечего сказать по теме, лучше вообще промолчать.

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

p.s. не вижу ничего плохого создание таблиц и мелкие правки делать в phpmyadmin - очень удобно, или предлагаеТЕ писать запросы вручную?

Написано более трёх лет назад
sim3x @sim3x

romalu: нормализирует субд, например

Написано более трёх лет назад
sim3x @sim3x

romalu: пользователи субд могут использовать гуи
Администраторы - не будут, потому что быстрее в консоли

Написано более трёх лет назад
Александр N++ @sanchezzzhak

хочется посмотреть на админа по монгодб ))
без mongobuster это миссия не выполнима ( очень удобный GUI для монги, пожалуй лучший )

Написано более трёх лет назад
sim3x @sim3x

Александр N++: кгхм
Кто-то еще использует монгу на продакшене? лол

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

sim3x: И вообще, чем поможет нормализация конкретно в этом вопросе?

Написано более трёх лет назад
Fortop @Fortop

romalu: разрулит он путем наличия знаний, которых у вас просто нет.

Вы задавая вопрос не описали окружение.
Что за железо?
Какая нагрузка в это время на сервер?
Есть ли запись/чтение в таблицу которую меняете?
Отключали ли индексы перед тем как заливать данные в таблицу?

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

Fortop:
1. Intel Xeon E3-1270
Memory: 16GB DDR3 RAM
Drive 1: 240GB SSD
2. Есть. На сайте есть посетители (порядка 200000 просмотров страниц+- в сутки)
3. При использовании pt-online-schema-change ясное дело, что в новую таблицу ничего не пишется и ничего из этой таблицы не читается.
4. Конечно нет. pt-online-schema-change это позволяет?
> разрулит он путем наличия знаний, которых у вас просто нет.
А у вас есть? Если нет, то откуда вы знаете, что он разрулит.
Лол, каким образом? Где же найти этого "опытного админа в вакууме"? С учетом всех ограничений - сервер под нагрузкой, сервер один, не думаю, что он сможет придумать что-то быстрее, чем pt-online-schema-change, которая в условиях этого сервера будет "думать" дней 10+-.

Написано более трёх лет назад
Fortop @Fortop
порядка 200000 просмотров страниц

Ни о чем.
Железо, конечно, старовато, но должно тянуть при правильном приложении.

В худшем из случаев вы включили индексы и тупо льете данные в БД. Это может быть очень долго.

3. При использовании pt-online-schema-change ясное дело, что в новую таблицу ничего не пишется и ничего из этой таблицы не читается.

Выполните этот сценарий руками.

pt-online-schema-change works by creating an empty copy of the table to alter, modifying it as desired, and then copying rows from the original table into the new table. When the copy is complete, it moves away the original table and replaces it with the new one. By default, it also drops the original table.

С одним уточнением.
Создаете таблицу (без индексов)
Заливаете данные.
Создаете индексы.
Переименовываете таблицу.

А у вас есть? Если нет, то откуда вы знаете, что он разрулит.

А у меня как ни странно есть. Потому что проекты, которые я вел, держали нагрузку 2-7 млн посетителей (а не просмотров) в сутки.
И БД была порядка 150Гб.

Внезапно? Да?
Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

Fortop:
В худшем из случаев вы включили индексы и тупо льете данные в БД. Это может быть очень долго.

Я не включал индексы. Все это автоматически делает pt-online-schema-change.
Создаете таблицу (без индексов)
Заливаете данные.
Создаете индексы.
Переименовываете таблицу.

Это можно попробовать. Только, если сервер/mysql при этом не зависнет.
А у меня как ни странно есть. Потому что проекты, которые я вел, держали нагрузку 2-7 млн посетителей (а не просмотров) в сутки.
И БД была порядка 150Гб.

Опять же - какое железо, размер оперативы, бд наверное была на отдельном сервере, и, скорее всего, не на одном, каков характер нагрузки на БД и т. д.?

Написано более трёх лет назад
Fortop @Fortop

БД естественно была на отдельном сервере.
И он был один. Нагрузка переменная. И непрерывная запись до 10 млн строк в сутки, и чтение и апдейты.
Оперативной памяти не помню точно, до 64 Гб

romalu: попробовали?

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

Fortop: Попробовал, получилось в течение дня сделать, сервер не завис, но половину индексов не добавлял, т. к. решил, что они не нужны приложению, что сэкономило время создания индексов. Да, в любом случае этот способ заметно быстрее. И сайт, кончено же, после удаления ненужных индексов, стал работать немного быстрее.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 71 просмотр
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 207 просмотров
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 180 просмотров
2

ответа
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 573 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 190 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 238 просмотров
4

ответа
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 328 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 125 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 325 просмотров
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Answer 1 · 2017-03-02 15:43:34

postgers добавлена быстрая поддержка изменения таблиц + нету проблем таких как в mysql
удаляешь данные а файлик бд не схлопывается...

ну а так решаю таким способом
создаем таблицу
create table new_post like post;
добавляем новые поля ( сразу создаем индексы (потом это будет не реально) )
далее выставляем авто инкремент с запасом на 100к+ выше.
далее делаем скрипт копирования

$limit = 10000;
        $count = 0;
        $lastId = 1;  // последний id можно менять ручками ( если скрипт зависнит)
        $endId = 70170509;  // максимальный ид в таблице, докуда копируем

$sqlTemplate = "insert into new_post ( select id, user_id, text)
from post where id > :lastId: and id < {$endId} order by id ASC limit {$limit})";

  $sql = str_replace(':lastId:', $lastId, $sqlTemplate);
        while ($res = $connection->createCommand($sql)->execute()) {
            $lastId = $connection->createCommand('SELECT id FROM new_post ORDER BY id DESC limit 1')->queryScalar();  // получаем ласт запись в новой таблице

            $count += $limit;

            file_put_contents($file,
                "processed " . number_format($count, 0, '.', ' ') . " rows\nlast id " . $lastId . "\n\n", FILE_APPEND);

            $sql = str_replace(':lastId:', $lastId, $sqlTemplate);
        }
        file_put_contents($file, "--done---\n\n", FILE_APPEND);

далее делаем меняем названия таблицы это операция быстрая.
30 гигов перегоняет за 20 минут.
смотрим разницу и до копируем оставшиеся

это аля аналог инструмента из percona-tool только не тормозит))

UPD
Запускаем скрипт из консоли, лучше всего вызвать
`screen` и сделать это фоново на случаи того если терминал зависит или интерент упадет.

Выбирайте БД под задачу у меня таблица была 120гигов статистики я выбрал аналитическую БД и бед не знаю.

Answer 2 · 2017-03-02 15:37:26

СУБД не так много, чтоб было из чего выбирать
Есть постгрес, есть мускул, есть корпоративные субд, лицензию, на которые ты не потянешь
Но раз ты используешь пхпмайадмин - то скорее проблема не в субд, а в тебе

Найми администратора, который разрулит проблему

Answer 3 · 2017-03-02 16:19:28

В принципе, любая современная БД справится с хранением указанного объема данных.
Вопрос в том, что именно вы хотите делать с этими данными.
Если накапливать, редко обращаться и скорость выборки не имеет большого значения - то сойдет любая SQL-БД.
Если накапливать и обращаться часто и быстро - нужно смотреть в сторону NoSQL-баз.
Если нужен полнотекстовый поиск - нужно смотреть в сторону ElasticSearch и/или Lucene.
В общем, нужно ориентироваться не на объем хранимых данных и индексов, а на конкретные задачи.

Answer 4 · 2017-03-03 07:29:21

Кроме всего прочего, я бы посоветовал сначала до конца оптимзировать существующую структуру: например, партицировать эту таблицу, создать нужные индексы для каждой партиции отдельно и т.д.
Потому что, похоже на то, что проблема совсем не в СУБД.

Какую субд выбрать для больших объемов данных (десятки гигабайт — сотня гигабайт)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт