Как увеличить скорость загрузки данных в Mysql?

Question

ubirust @ubirust

MySQL

Как увеличить скорость загрузки данных в Mysql?

Приветствую всех! Есть базы данных, весит примерно 40 гб. Нужно его восстановить на свой сервер. Проблема в скорости. Там более 100 млн. строк. Сейчас 1000 строк загружается за 3-4 минуты, что очень долго. На другом форуме нашел решение, мол добавить эти значения:

innodb_buffer_pool_size = 4G
innodb_log_buffer_size = 256M
innodb_log_file_size = 1G
innodb_write_io_threads = 16
innodb_flush_log_at_trx_commit = 0

Куда я только не пробовал добавлять их, начал с пути /etc/mysql/@my.cnf (тут мне не нравится то, что у меня стоит @ перед my.cnf) просто дописал в конце этого файла [mysqld] и внизу параметры, не сработало. В этом файле содержится текст:

#
# The MySQL database server configuration file.
#
# You can copy this to one of:
# - "/etc/mysql/my.cnf" to set global options,
# - "~/.my.cnf" to set user-specific options.
#
# One can use all long options that the program supports.
# Run program with --help to get a list of available options and with
# --print-defaults to see which it would actually understand and use.
#
# For explanations see
# http://dev.mysql.com/doc/mysql/en/server-system-variables.html

#
# * IMPORTANT: Additional settings that can override those from this file!
#   The files must end with '.cnf', otherwise they'll be ignored.
#

!includedir /etc/mysql/conf.d/
!includedir /etc/mysql/mysql.conf.d/

Далее прочитал на других форумах, что нужно в этом случае данные записывать в /etc/mysql/mysql.conf.d/mysqld.cnf
Также туда записал, понятное дело, что в других местах я это предварительно удалил и перезапустил службы mysql командой: sudo service mysql restart --innodb-doublewrite=0, как и предлагали на форуме, где это было решением.

Но скорость не увеличивается, так и на 1000 строк затрачивается 3-4 минуты.

Пробовал эти настройки вставлять и по пути /etc/mysql/conf.d/mysqldump.cnf, тоже ничего не происходит.
Хотя у других людей в десятки раз сокращалась время загрузки:

То есть этот способ работает, но видимо что-то я не то делаю. Тем более я знаю, что и 1 тб дампы восстанавливают, что уж говорить о 40 гб, задача решаемая.

Вопрос: куда эти параметры в итоге вставлять? Что я делаю не то?

Характеристика моей вирт. машины:
ssd - 100 гб
vcpu - 4
ram - 32

UPDATE:
Был вопрос почему именно 1000 строк:
Ответ: Я скопировал кусок дампа на 1000 строк. Там внутри команда вставки:
INSERT INTO `orders` VALUES'(что нужно вставить)
INSERT INTO `orders` VALUES'(что нужно вставить)
INSERT INTO `orders` VALUES'(что нужно вставить)
И так далее. Весь дамп это и содержит. Сами значения правильно вставляются, с этим проблем нет. Проблема только в скорости.

Вопрос задан более двух лет назад
1216 просмотров

7 комментариев

Подписаться 1 Средний 7 комментариев

Vitsliputsli @Vitsliputsli

а вы запускаете вставку на сервере? или все это в процессе заливается на сервер по медленному интернету?

Написано более двух лет назад
ubirust @ubirust Автор вопроса

Vitsliputsli, изначально файл sql заливается на сервер, а далее уже выполняется код, который там внутри.

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

ubirust, просто 5 вставок в секунду, это прям настолько мало, что дело не в настройках СУБД (если они дефолтные, конечно), не в заливки из csv т.п. Может у вам уже диск отказывает?

Написано более двух лет назад
ubirust @ubirust Автор вопроса

Vitsliputsli, У меня вирт.машина с Yandex Cloud. В среднем 1 ставка - 0.3 секунды.

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

ubirust, блин, т.е. это нормально...
На что накладываются ограничения? Исходя из этого, уже можно искать решение. Если СУБД медленно жует отдельные запросы - отправляйте батчем, т.е. вместо:
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
чтото вроде этого:
INSERT INTO `orders` VALUES (что нужно вставить),(что нужно вставить),(что нужно вставить);

Написано более двух лет назад
ubirust @ubirust Автор вопроса

Vitsliputsli, вот это хороший вариант, это точно сработает, инфа сотка. Что-то забыл про это. Но здесь появляется другая трудность, что весь дамп на 40 гб состоит из этого:
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
А не из этого:
INSERT INTO `orders` VALUES (что нужно вставить),(что нужно вставить),(что нужно вставить);

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

ubirust, любой язык программирования в помощь. Но сперва проверьте, что это действительно быстрее, не факт что ограничение в этом.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее

Решения вопроса 1

7 комментариев

Vitsliputsli @Vitsliputsli

Заливка из файла разумеется быстрее.
Но "MyISAM потом замена на innodb"? Вы как считаете время? До момента когда все данные будут доступны в InnoDB или только заливка в MyISAM?
MyISAM и InnoDB по-сути разные СУБД, поэтому при смене движка, понадобится данные забрать из MyISAM загрузить его на уровень MySQL, потом залить в InnoDB, это гораздо медленней, чем пересоздание таблицы внутри движка. Поэтому я не понимаю, как такое может быть быстрее.

Написано более двух лет назад
Dimonchik @dimonchik2013

Vitsliputsli, т.е. readfromfile в Innodb выполнится быстрее?

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

Dimonchik, скорее всего медленней чем readfromfile в MyISAM. Но, быстрее, чем залить сперва в MyISAM, а потом перекидывать все в InnoDB. Либо я чтото не понимаю в этой хитрой схеме...

Написано более двух лет назад
Dimonchik @dimonchik2013

)) пробуйте на реальных данных

впрочем, кое-что зависит и от настроек и от ядер

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

Dimonchik, похоже вы правы, во-первых перекидывание данных между движками бесплатное - хз почему, во-вторых инсерты в InnoDB на порядок медленнней чем в MyISAM. Получается схема реально будет быстрее. Не пробовал загрузчиком из csv, но не думаю, что там будет чтото разительно другое.
На 4M коротких строчках, только pk ничего более (MySQL 5.7):
-- из MyIsam в InnoDb - 16s
-- из InnoDb в InnoDb - 19s
-- из InnoDb в MyIsam - 11s
-- inserts из файла в MyIsam - 5m41s (имеется ввиду mysql < file.sql)
-- inserts из файла в InnoDb - ~54m (через 27m на 50% я задолбался ждать)
Причем неважно как данные перебрасывать alter engine или insert select, время тоже. При повторном тесте, примерно те же самые результаты.
Спасибо большое, очень интересная штука. Есть над чем подумать.

Написано более двух лет назад
Dimonchik @dimonchik2013

Vitsliputsli, )))))))))
4м это гулькин нос

как насчет 200м, или 200*2 )

и да, Кликхаусы и Постгре используем конечно, но вот надо и в Мускуле кой для чего держать

я выяснял этот вопрос, поэтому знаю о чем пишу, но - повторю, может на каких-то данных и с подкрутками окажется не так

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

Dimonchik,
4м это гулькин нос

как насчет 200м, или 200*2 )

Какая разница? Думаете, на 200м InnoDb вдруг станет быстрее?
И если уж смотреть, что будет при деградации на больших объемах, лучше на 1000М и длинных строках, но это уже другой вопрос.

Кликхаусы и Постгре используем конечно, но вот надо и в Мускуле кой для чего держать

Аналитическая СУБД вообще не замена для классической, а Postgre принципиально не отличается по производительности от MySQL.

я выяснял этот вопрос, поэтому знаю о чем пишу, но - повторю, может на каких-то данных и с подкрутками окажется не так

Выясняли практически? Интересно, почему так теоретически, вероятно InnoDB медленней размещает каждую отдельную строку в индексе, поэтому когда строка уже размещена копирование скопом проходит быстрее, но очень интересны подробности.
"Подкрутки" это тоже отдельный вопрос, если как в примере описанном в вопросе, то класть на устойчивость это не вариант. Можно, конечно, вырубить binlog, но это только частный случай, в большинстве продуктовых систем это тоже невозможно.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 5

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 7 часов назад
- 65 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 193 просмотра
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 216 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 614 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 340 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 128 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 405 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 129 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 182 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 202 просмотра
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

а вы запускаете вставку на сервере? или все это в процессе заливается на сервер по медленному интернету?
Vitsliputsli, изначально файл sql заливается на сервер, а далее уже выполняется код, который там внутри.
ubirust, просто 5 вставок в секунду, это прям настолько мало, что дело не в настройках СУБД (если они дефолтные, конечно), не в заливки из csv т.п. Может у вам уже диск отказывает?
Vitsliputsli, У меня вирт.машина с Yandex Cloud. В среднем 1 ставка - 0.3 секунды.
ubirust, блин, т.е. это нормально...
На что накладываются ограничения? Исходя из этого, уже можно искать решение. Если СУБД медленно жует отдельные запросы - отправляйте батчем, т.е. вместо:
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
чтото вроде этого:
INSERT INTO `orders` VALUES (что нужно вставить),(что нужно вставить),(что нужно вставить);
Vitsliputsli, вот это хороший вариант, это точно сработает, инфа сотка. Что-то забыл про это. Но здесь появляется другая трудность, что весь дамп на 40 гб состоит из этого:
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
INSERT INTO `orders` VALUES (что нужно вставить);
А не из этого:
INSERT INTO `orders` VALUES (что нужно вставить),(что нужно вставить),(что нужно вставить);
ubirust, любой язык программирования в помощь. Но сперва проверьте, что это действительно быстрее, не факт что ограничение в этом.

Answer 1 · 2023-03-16 13:25:24

самое быстрое - чтенгие из файла, csv в MyISAM потом замена на innodb или другой движ
медленнее - убивание индексов из SQL сценария и ручное создание после
ну и самое медленное AS IS

а тае настройки до Ж все, в пределах 50% идеале процентов прирост

Answer 2 · 2023-03-16 13:23:57

1000 строк загружается за 3-4 минуты

интересно в каком виде у вас данные и как вы их загружаете, вероятно вы делаете что-то сильно не так.
Откуда у вас вообще цифра 1000, вы построчно вставляете?

Answer 3 · 2023-03-16 14:03:23

1) Как загружаются данные? Из консоли импортом дампа? Из пхпмайадмина? Из своего кода?
2) Закомментируйте все строки создания индексов, это сильно ускорит загрузку. Естественно в конце надо будет пройтись и ручками добавить индексы в нужные места.
3) про конфиг

To check which configuration files are processed by the server, just execute
$ /path_to_mysqld/mysqld --help --verbose
At the beginning of output you will find information about configuration files, e.g.

Answer 4 · 2023-03-16 14:08:34

оффтоп

Загрузка большого объёма данных через штатные средства резервного копирования - вообще занятие для записных мазохистов. Впрочем, 40 гигов в .SQL - это немного...

Если база, которую надо скопировать/переместить на другой хост, сейчас жива, доступна, и допускает некоторый даунтайм (необходимый на создание её полной копии в файловой системе), а также версия исходного и целевого серверов совпадает, то следует использовать именно путь переноса файлов данных.

Если даунтайм недоступен или версии серверов различаются, но исходная база доступна, надо сделать бэкап структуры, и отдельно бэкап данных в формат CSV. Структуру поделить на две части - собственно таблицы и всё остальное. Затем восстановить таблицы, в них скопировать данные, затем наслоить все остальные объекты.

Если же исходная база недоступна - то запускай развёртывание бэкапа и сиди-жди, другого пути нет.

На другом форуме нашел решение, мол добавить эти значения:

Эти значения критично зависят от железа хоста. И на твоём хосте запросто вместо ускорения можно поиметь изрядное замедление.

Опять же - корректируя innodb_buffer_pool_size, нужно корректировать innodb_buffer_pool_chunk_size и/или innodb_buffer_pool_instances. И вообще - см. https://dev.mysql.com/doc/refman/5.7/en/innodb-buf... (перейди на справку для своей версии, если нужно).

Answer 5 · 2023-03-16 16:18:22

Отключить/удалить индексы, вернуть после полного импорта. Это самое большое ускорение.

Ещё можно изменить стратегию кеширования данных, дело в том что сервер базы данных слишком щепитильно относится к корректности загружаемых данных, выдавая частый fflush, т.е. принудительную запись данных с ожиданием ее окончания. Это актуально для режима работы с базой но первоначальное наполнение пустой базы можно не боятся сбоев, ведь попытку можно перезапустить с нуля. Например можно изменить режим записи в журнал ext4 на data writeback или лучше средствами виртуализации настроить кеширования диска на -device cache=unsafe для qemu.
Ещё круче можно настроить bcache с кеширующим диском на ramdisk....

В общем есть где творчески разгуляться, в итоге можно поднять скорость импорта на порядок, особенно если хватает оперативной памяти

Answer 6 · 2023-03-16 19:24:54

Есть базы данных, весит примерно 40 гб. Нужно его восстановить на свой сервер

Оптимизация сильно зависит от того в каком виде лежат исходные данные.
И какой engine включен у таблицы и есть ли какие-то обвсесы у таблицы которые замедляют
ее вставку. Например индексы, триггеры и констрейнты.

(я достигал резкого увеличения скорости загрузки когда переключал engine с InnoDb на MyISAM.
Это было давно. И как щас я не знаю. Может щас появились новые engines которые лучше чем
MyISAM. Надо читать. Но на тот момент мне транзакции были безразличны. Нужно было просто
хоть как-то загрузить данные и MyISAM помог).

Очень хорошо грузится CSV в пустую свеже-созданную таблицу без ничего. Даже не надо объявлять PK.. Лучше потом его активировать и также добавить констрейнты в режиме no check.

UPD:

Как увеличить скорость загрузки данных в Mysql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт