HELP: Как работать с большим объемом данных? Oracle или Mysql?

Question

inheaven @inheaven

HELP: Как работать с большим объемом данных? Oracle или Mysql?

Есть база mysql, в ней innodb таблица на 120 млн. строк и как-то все меееддддленнннно работает.

Написал процедуру, курсор перебирает часть данных (1 млн.) из большой таблицы, для каждой записи делает 10 простых запросов по индексным ключам в эту же таблицу, если условие проходит, то вставляется запись в другую таблицу (в среднем 1 раз в 200 записей).

Первые 1000 записей шустренько, потом все медленней, меeдленнней и меeеееeдленннннннней…

Я так и не понял от чего такое замедление. Мне кажется будет быстрее если переписать через jdbc. Хотя я был уверен, что если все нативно, то должно быть супер быстро. Может какая-то особенность с курсорами или памяти где не хватает, или настройки где подправить. Может разбить большую таблицу на несколько маленьких, хотя я думаю индексы все решают. Я полагаю что предел скорости — это скорость считывания данных с жесткого диска. А на деле работает 10 часов, mysqld полностью грузит одно ядро.

А разницу с oracle database на больших данных кто-нить знает?

Вопрос задан более трёх лет назад
4836 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 10

Комментировать

2 комментария

inheaven @inheaven Автор вопроса

Минимальный набор индексов ~7G, под ключи выделено 3G, но я бы не сказал что диск используется на полную мощность. Проц. грузит все ядро, может как-то можно распараллелить, сама таблица ~6G но все равно считает 10 часов, я думаю что скорость должна быть сравнима с копированием файла в 6G, просто с большей нагрузкой на процессор.
Да, для обработки используются транзакции, раз в 100 записей делается коммит, хотя я не заметил особого прироста производительности для данной задачи с autocommit=0/1.
На таких больших данных работают какие-то другие законы и хитрости, пока не понятно в какую сторону копать.

Написано более трёх лет назад
Георгий Хромченко @Mox

habrahabr.ru/blogs/mysql/108418/ — вот тут хорошо написано.
Про распараллелить — вроде drizzle как раз про это

Написано более трёх лет назад

Комментировать

2 комментария

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 177 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 541 просмотр
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 318 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 124 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 288 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 127 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 175 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 195 просмотров
1

ответ
Oracle

Простой
Почему вложеность запроса так сильно меняет скорость?
- 1 подписчик
- 08 авг.
- 364 просмотра
1

ответ
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 131 просмотр
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Answer 1 · 2010-12-16 18:37:45

А вы не смотрели, затык по IO есть? iostat -dkx 3 например. Если тут затык по IO (%util >90) то оракл вас не спасет.

А вообще с процедурами в мускуле как то хреново все. Вот говорят что вроде они precompiled, а на самом деле они в исходном плейнтексте лежат…

Answer 2 · 2010-12-15 12:50:08

Та же проблема была с курсорами в MySQL. Но у меня было много вставок, подумал тогда, что это связанно с перегенирацией индексов для каждой вставки. Но в вашем случае 1 вставка на 200 параметров… значит дело в чем-то другом.

Answer 3 · 2010-12-15 14:55:48

Я бы не стал надеятся что оракел вас спасет. По моему опыту, тормозить в таких случаях он умеет отлично :)

— Придется потратить массу времени на возню с ним.
— А ваще он еще и платный — может за эти бабки докупить оперативы, Xeonов и SSD винтов?

Я не знаю сколько там у вас оперативки на сервере, но посмотрите на индексные файлы, их размер и в настройках мускула отведите, если есть возможность, размер памяти под индексы чуть больший чем размер этих индексных файлов

Может быть 10 запросов объединить в одну транзакцию/один запрос? ( Если еще не сделано )?

Таблицу, наверное можно разбить как нибудь, но особый эффект будет если разные части будут на разных винтах.

А еще может быть попробовать drizzle или какие то другие форки MySQL?

Answer 4 · 2010-12-15 14:58:26

А, еще, чуть не забыл — если из таблицы много чтения, то может быть попробуйете MyISAM таблиу? Но это просто попробовать, посмотрите что будет.

Answer 5 · 2010-12-15 16:42:29

Сотня-другая миллионов строк — для Oracle очень скромная БД. Никакого деградирования производительности на длительных операциях, даже очень сложных, я не замечал.

В любом случае нужно стараться по возможности упаковать всё в стандартные операторы DML с джойнами, без дополнительного кода, курсорных циклов и т.п. При очень больших объёмах изменений необходимо разбивать транзакцию на несколько, чтобы ограничить использование undo tablespace. Разумееется, включить параллелизм и тщательно рассмотреть план выполнения запроса.

Answer 6 · 2010-12-15 17:24:19

>Первые 1000 записей шустренько, потом все медленней, меeдленнней и меeеееeдленннннннней…

Напоминает поведение при длинных транзакциях. Может просто автокоммит делать?
Это просто догадка. Если не поможет, то вам придется исследовать досконально.