Проседание производительности mariadb, linux. Почему растет Load Average до 30-40?

Question

Yuriyant @yuriyant

web программист

Проседание производительности mariadb, linux. Почему растет Load Average до 30-40?

Всем привет.
В наличии есть сервер с 8-ми ядерным CPU, RAM 32GB, 2 SSD RAID 1 (mdadm, lvm), Centos 7.
База данных: 10.3.16-MariaDB. На сервере крутится проект на Битрикс.

Средняя нагрузка на базу от 1 до 4 тыс. запросов в секунду. С такой нагрузкой сервер работал ~4 мес. и load average сервера составлял порядка 0.7-2. Нагрузка mysqld составляла от 50% до 200%.

Но что-то пошло не так, производительность начала резко деградировать.
Сейчас демон базы грузит систему по top на 400-600%, а load average достигает 40. И такой load average может быть и при 400% и при 600% нагрузки даваемой mysqld.

По наблюдениям бывают моменты и производительность возвращается не надолго. При равных метриках базы данных по кол. запросов нагрузка может на какое-то время прийти в норму до load average: 1-2.

Перезагрузка сервера или mysqld не дает ни какого эффекта.

Потратил несколько дней в поисках связи метрик базы данных и операционной системы в целях найти связь в отклонениях, но пока не смог.

Теоретически это может быть даже не база данных, железо или еще что-то.

Изначально подумал, что возможно что-то не так с дисками, но trim включен, по данным atop дисковая система нагружена на 3-7%.

Модель SSD дисков

Model Family:     Intel S4510/S4610/S4500/S4600 Series SSDs
Device Model:     INTEL SSDSC2KB240G8

Данные мониторинга за disk latency

Read: sda  	min: 0.13 ms,	max: 30.04 ms, avg: 0.66 ms
Read: sdb 	min: 0.01 ms,	max: 27.37 ms, avg: 0.90 ms
Write: sda	min: 0.09 ms,	max: 8.33 ms,	avg: 1.34 ms
Write: sdb	min: 0.09 ms,	max: 10.48 ms,  avg: 1.41 ms

Настройки базы

[mysqld]
key-buffer-size = 32M
long_query_time=1
performance_schema=on
read_rnd_buffer_size=128K
sort_buffer_size=1M
read_buffer_size=128K
join_buffer_size=512K
max_allowed_packet=64M
sql_mode=
transaction-isolation=READ-COMMITTED
innodb_io_capacity = 3000
innodb_io_capacity_max = 6000
innodb_read_io_threads = 64
innodb_write_io_threads = 64
innodb_thread_concurrency=10
innodb_lru_scan_depth=100
open_files_limit = 65535
table_open_cache=5000
query_cache_min_res_unit=3000
thread_cache_size=500
innodb_flush_method=O_DIRECT
innodb_file_per_table = 1
innodb_flush_log_at_trx_commit=2
innodb_log_buffer_size=12M
query_cache_type=1
query_cache_size=128M
query_cache_limit=1M
query_cache_min_res_unit=3500
tmp_table_size=1024M
max_heap_table_size=1024M
innodb_buffer_pool_size=15G
innodb_log_file_size=1G
innodb_log_files_in_group=3
innodb_buffer_pool_instances=15

Лимиты системы ulimit -a

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 127750
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 65535
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 65535
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

SHOW ENGINE INNODB STATUS

=====================================
2019-07-30 06:57:50 0x7f9e40f63700 INNODB MONITOR OUTPUT
=====================================
Per second averages calculated from the last 1 seconds
-----------------
BACKGROUND THREAD
-----------------
srv_master_thread loops: 1621 srv_active, 0 srv_shutdown, 1 srv_idle
srv_master_thread log flush and writes: 1622
----------
SEMAPHORES
----------
OS WAIT ARRAY INFO: reservation count 320574
--Thread 140317647853312 has waited at btr0sea.cc line 1476 for 0.00 seconds the semaphore:
X-lock (wait_ex) on RW-latch at 0x55fd09116700 created in file btr0sea.cc line 243
a writer (thread id 140317647853312) has reserved it in mode  wait exclusive
number of readers 1, waiters flag 1, lock_word: ffffffff
Last time write locked in file btr0sea.cc line 1557
--Thread 140317668058880 has waited at btr0sea.cc line 934 for 0.00 seconds the semaphore:
S-lock on RW-latch at 0x55fd09116700 created in file btr0sea.cc line 243
a writer (thread id 140317647853312) has reserved it in mode  wait exclusive
number of readers 1, waiters flag 1, lock_word: ffffffff
Last time write locked in file btr0sea.cc line 1557
--Thread 140317670516480 has waited at btr0sea.cc line 934 for 0.00 seconds the semaphore:
S-lock on RW-latch at 0x55fd09116700 created in file btr0sea.cc line 243
a writer (thread id 140317647853312) has reserved it in mode  wait exclusive
number of readers 1, waiters flag 1, lock_word: ffffffff
Last time write locked in file btr0sea.cc line 1557
--Thread 140317639866112 has waited at btr0sea.cc line 934 for 0.00 seconds the semaphore:
S-lock on RW-latch at 0x55fd09116700 created in file btr0sea.cc line 243
a writer (thread id 140317647853312) has reserved it in mode  wait exclusive
number of readers 1, waiters flag 1, lock_word: ffffffff
Last time write locked in file btr0sea.cc line 1557
OS WAIT ARRAY INFO: signal count 10122942
RW-shared spins 0, rounds 40759553, OS waits 237147
RW-excl spins 0, rounds 994262, OS waits 71533
RW-sx spins 220, rounds 1828, OS waits 40
Spin rounds per wait: 40759553.00 RW-shared, 994262.00 RW-excl, 8.31 RW-sx
------------
TRANSACTIONS
------------

.......
ROW OPERATIONS
--------------
10 queries inside InnoDB, 1 queries in queue
10 read views open inside InnoDB
Process ID=9541, Main thread ID=140317842663168, state: sleeping
Number of rows inserted 17731, updated 22665, deleted 12861, read 5275053684
2.00 inserts/s, 19.98 updates/s, 0.00 deletes/s, 4063602.40 reads/s
Number of system rows inserted 0, updated 0, deleted 0, read 0
0.00 inserts/s, 0.00 updates/s, 0.00 deletes/s, 0.00 reads/s
----------------------------
END OF INNODB MONITOR OUTPUT
============================

mysqltuner. Он рекомендует отключить кеш, но это не помогает. У CMS Битрикс много подзаропросов в запросах на которые из приложения особо не повлиять и с кешем работает быстрей.

-------- Recommendations ---------------------------------------------------------------------------
General recommendations:
    Control warning line(s) into /var/log/mariadb/mysql_error.log file
    Control error line(s) into /var/log/mariadb/mysql_error.log file
    MySQL was started within the last 24 hours - recommendations may be inaccurate
    Increasing the query_cache size over 128M may reduce performance
    Adjust your join queries to always utilize indexes
    Consider installing Sys schema from https://github.com/mysql/mysql-sys
Variables to adjust:
    query_cache_size (=0)
    query_cache_type (=0)
    query_cache_size (> 128M) [see warning above]
    join_buffer_size (> 512.0K, or always use indexes with JOINs)

Системные метрики за 12 часов.

Статистика по использованию кеш mariadb за 12 часов. Я пробовал и отключать его - результат становился немного хуже. Кеш на этом проекте все же дает прирост производительности.

Статистика по типам запросов

Innidb метрики

По журналу медленных запросов я конечно сделал анализ, один из долгих запросов составляет порядка 80% медленных запросов, но его отключение не влияет на производительность и нагрузку на сервере.

А так выглядит мой atop последние несколько дней.

К сожалению расширенный мониторинг был настроен уже после проседания производительности и данных по серверу в лучшее его время нет.

Но по CPU график есть.

Update 30.07.2019 16:00
Перенес базу данных на другой сервер, ситуация особо не поменялась.
Проблемы с железом отменяются, видимо на нагрузку влияют запросы, но почему в разные моменты времени по разному еще не выяснил.

Скорей всего запросы стали оказывать влияние на метрики innodb:
RW Locks S OS Waits, RW Locks X OS Waits, RW Locks S Spin Rounds, RW Locks X Spin Rounds.

Буду благодарен за любую помощь или совет в поиске причин такого провала производительности.

Вопрос задан более трёх лет назад
3156 просмотров

2 комментария

Подписаться 8 Простой 2 комментария

Wexter @Wexter

У вас метрики странные, график показывает 60-80% iowait, а рядом в цифрах меньше 1%.
Что показывает
iostat -x -m 1
когда LA выходит под 40-60?

Написано более трёх лет назад

Yuriyant @yuriyant Автор вопроса

Сейчас load average: 27,63, 25,51, 24,38

Данные iostat -x -m 1

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00    36,00    0,00   13,00     0,00     0,21    33,69     0,00    0,00    0,00    0,00   0,00   0,00
sda               0,00    36,00    7,00   13,00     0,11     0,21    33,10     0,01    0,25    0,71    0,00   0,25   0,50
md1               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00
md2               0,00     0,00    7,00   45,00     0,11     0,21    12,62     0,00    0,00    0,00    0,00   0,00   0,00
dm-0              0,00     0,00    7,00   44,00     0,11     0,21    12,86     0,02    0,35    0,71    0,30   0,35   1,80
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          93,49    0,00    4,26    0,00    0,00    2,25

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00    31,00    0,00   14,00     0,00     0,16    23,64     0,00    0,07    0,00    0,07   0,07   0,10
sda               0,00    31,00    5,00   14,00     0,08     0,16    25,84     0,00    0,11    0,20    0,07   0,11   0,20
md1               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00
md2               0,00     0,00    5,00   38,00     0,08     0,16    11,16     0,00    0,00    0,00    0,00   0,00   0,00
dm-0              0,00     0,00    5,00   37,00     0,08     0,16    11,43     0,02    0,45    0,20    0,49   0,45   1,90
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          89,80    0,00    4,28    0,00    0,00    5,92

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00    19,00    0,00   10,00     0,00     0,11    21,60     0,00    0,20    0,00    0,20   0,20   0,20
sda               0,00    19,00    0,00   10,00     0,00     0,11    21,60     0,00    0,10    0,00    0,10   0,10   0,10
md1               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00
md2               0,00     0,00    0,00   24,00     0,00     0,10     8,67     0,00    0,00    0,00    0,00   0,00   0,00
dm-0              0,00     0,00    0,00   23,00     0,00     0,10     9,04     0,01    0,48    0,00    0,48   0,48   1,10
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00    0,00    0,00   0,00   0,00

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

7 месяцев

Далее
Skillfactory

Профессия «Белый» хакер

13 месяцев

Далее

Решения вопроса 2

3 комментария

Mike @skvarovski

чую, что архитектура БД не подразумевала о создании 300 тысяч купонов (как раз я вас просил показать кол-во записей и сам SQL запрос, который тормозит - мы бы увидели это сразу), поэтому инженер Тяпкин и Ляпкин из Битриксоффска не сочли нужным добавить индексы в b_coupon , подразумевая, что максимум будет 500 купончиков. :))))

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

Mike, мы имеем среднюю нагрузку на базу в 2-3 тыс. запросов в секунду и я не очень был уверен, что 3 запроса из этих трех тысяч могут так сильно оказывать влияние на всю базу. Тем более, что блокировок таблиц нет, строк практически тоже нет. Индекс они создали, но там таблица другая была "b_catalog_discount_coupon". На 300 000 тыс. записей по запросу было около 4 тыс. сканирований строк. Это много, но тоже не настолько, есть запросы более тяжелые в битрикс и от них CPU так не грузится. Там дело в самом запросе, который можно переписать для более эффективной работы с использованием индекса. Отправлю в Битрикс обращение, возможно они внесут изменения.

Написано более трёх лет назад
Mike @skvarovski

Yuriyant, у меня подобное было лет 5 назад, но в самописной архитектуре, когда таблица раздулась сама по себе и стало все тормозить, путём разборки запросов и explain была найдена таблица, которая, как оказалась была без индекса по искомому полю.

Спасибо вам за то, что описали решение, пусть это уйдёт в копилку знаний.

Написано более трёх лет назад

5 комментариев

Yuriyant @yuriyant Автор вопроса

Был включен, но время было установлено в 10 сек. Мы не ставили эту настройку в 1 сек. т.к. сервер настолько хорошо работал, что запас мощности был еще 70%. Проблем с производительностью не испытывали. По мониторингу запросов был выявлен проблемный запрос, отключение запроса не ускоряло работу системы, но кое какие метрики улучшались.

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

Эти две метрики очень важны для производительности.
Советую продолжить с медленными запросами.
Кстати, можете прислать начало отчета по медленным запросам?

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

Вот отчет по запросам за последний час. Из отчета выделяется один запрос, который составляет 80% от всех запросов выполняющихся более 1 сек. Если его отключить, то демон mysqld начинает потреблять действительно меньше ресурсов CPU. По моим замерам вчера в момент времени до выключения запроса было 400% на CPU и после выключения до 300%. Хотя load average по прежнему плавал от 8 до 30 примерно.

Вот отчет по запросу. Сам запрос является системным для CMS Bitrix, вносить изменения в ядро я не могу, оно затрется обновлениями, а составить под запрос более эффективный индекс чем текущий я пока не смог.

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

Yuriyant,
Я [почти]уверен, что их не было раньше или было меньше. Или - одна из таблиц из запроса значительно увеличилась.
Что делать, если нельзя поменять запрос? (я не работал с Битрикс, но есть опыт Wordpress,Magento и т.п.):
- может быть можно поменять что-то в конфиге Битрикса чтобы снизить частоту этих запросов
- если таблицы из запроса меняются редко, то кеш может помочь. Можно поиграться с параметрами кеша чтобы этот запрос использовал кеш
- если ничего не поможет - поднять slave server для запросов на чтение

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

Vitaly Karasik, возможно. Спасибо за совет. Попробую поднять дамп базы на несколько месяцев раньше. Сравню объемы таблиц. Но запрос был и раньше :)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

11 комментариев

Yuriyant @yuriyant Автор вопроса

В базе все таблицы innodb, в проекте используются транзакции.
Параметр этот убрал из настроек.

Написано более трёх лет назад
Mike @skvarovski
Yuriyant,
а много ли весят таблицы? в сумме бд сколько весит? похоже, что процесс записи\чтения стал с трудом производится из-за увеличения объема таблиц

возможно стоит снизить нагрузку на кол-во потоков записи\чтения хотя бы раза в два.
innodb_read_io_threads = 32
innodb_write_io_threads = 32
а еще параметр innodb_thread_concurrency в последней mariadb (
https://mariadb.com/kb/en/library/why-does-mariadb-102-use-innodb-instead-of-xtradb/
с 10.2.7 версии кажись, как они вернулись к InnoDB взамен XtraDB) уже по умолчанию = 0 и сам решает по нагрузке обычно он раза в два больше чем кол-во ядер, но это не точно.
Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса
Таблицы весят все вместе почти 10 гиг.
Таблица связанная с медленным запросом 78 мб.

Пробовал с разными значениями. 8, 16, 32, 64. Без видимых изменений в течении часа работы.

innodb_read_io_threads = 32 innodb_write_io_threads = 32

Из версий mariadb 10.1, 10.2, 10.3 - во всех версиях были проблемы, но на 10.1 должен отметить производительность была несколько выше по отношению к 10.3.

В данный момент в процессе настройки и испытаний сервер percona 8. Напишу если будут положительные сдвиги.
Написано более трёх лет назад
Mike @skvarovski

Таблица связанная с медленным запросом 78 мб.

если это получилось вычислить, может индексы перестроить\создать?

ps. буду следить, тема мне интересная.

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

skvarovski, более эффективный индекс, чем текущий построить не получается. Изменить запрос нет возможности т.к. он внутриядерный CMS Bitrix и обновления его затрут. Но я тестировал с отключенным запросом. Метрики RW Locks S OS Waits, RW Locks X OS Waits, RW Locks S Spin Rounds, RW Locks X Spin Rounds стали существенно ниже. При этом пики нагрузки снижаться не стали.

Позже я провел тест. Если допустить, что 3 запроса в секунду укладывают сервер, то допустим 100 запросов должны его положить. Я стал отправлять эти запросы со скоростью 20-50 запросов в секунду и несколько меняя чтобы исключить использование кеша. Результат нулевой. На нагрузке не отразилось.

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

skvarovski, не ответил на предложение о перестроить/пересоздать таблицы.
Оптимизация, проверка, исправление таблиц тоже не дают эффекта. Все это делал и вручную запуская и сразу снимая метрики и оно в принципе на кроне ежедневно делается. Ну и опять же, развернутая на отдельном сервере база с чистого листа не принесла успеха.

Написано более трёх лет назад
Mike @skvarovski

Yuriyant, в любом случае на чистом сервере если развернётесь, то постарайтесь взять за основу конфиг по-умолчанию и дополнить только теми значениями, которые отвечают за innodb

innodb_io_capacity = 3000
innodb_io_capacity_max = 6000

innodb_flush_method=O_DIRECT
innodb_file_per_table = 1
innodb_flush_log_at_trx_commit=2

tmp_table_size=1024M
max_heap_table_size=1024M

innodb_buffer_pool_size=15G
innodb_log_file_size=1G
innodb_log_files_in_group=3
innodb_buffer_pool_instances=15

Написано более трёх лет назад
Mike @skvarovski

может еще детально разобрать медленный запрос через explain ?

Написано более трёх лет назад
Yuriyant @yuriyant Автор вопроса

skvarovski, запросу уделял внимание. Индекс более эффективный нет возможности собрать под запрос.

Написано более трёх лет назад
Mike @skvarovski

честно не могу понять по этим картинкам сам запрос SQL , вижу какие-то обрывки. Можно увидеть полноценный запрос и структуру таблиц?

Написано более трёх лет назад
Mike @skvarovski

дополню, еще бы полную выкладку SHOW ENGINE INNODB STATUS не мешало бы увидеть, когда затыки. а то ваша урезанная + sql запрос который тупит.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Какие есть простенькие скрипты «HTTP over Email», чтоб поставить у себя на серваке?
- 1 подписчик
- 14 нояб.
- 316 просмотров
1

ответ
Linux

+3 ещё

Простой
Fedora 6 как починить загрузчик grub?
- 2 подписчика
- 13 нояб.
- 189 просмотров
1

ответ
Linux

+1 ещё

Средний
Как получить publicKey используя xray x25519?
- 2 подписчика
- 10 нояб.
- 298 просмотров
0

ответов
Linux

+1 ещё

Простой
Как установить «Госплагин» в Яндекс-браузер на Debian 12?
- 1 подписчик
- 10 нояб.
- 522 просмотра
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 204 просмотра
1

ответ
Linux

+4 ещё

Простой
Не видно курсор в KDE, что делать?
- 1 подписчик
- 07 нояб.
- 197 просмотров
1

ответ
Linux

Средний
Почему после подключения из консоли к openvpn перестаёт работать SOCKS прокси 3proxy на той же виртуальной машине VirtualBox?
- 1 подписчик
- 05 нояб.
- 121 просмотр
1

ответ
Linux

Простой
Что за ошибка « ERROR: Cannot open TUN/TAP dev /dev/net/tun: No such file or directory (errno=2)» при подключении к OpenVPN?
- 1 подписчик
- 05 нояб.
- 148 просмотров
1

ответ
Linux

Простой
Как в Deepin OS запустить исполняемый файл ЕИС как приложение Ubuntu?
- 1 подписчик
- 04 нояб.
- 178 просмотров
1

ответ
Linux

+1 ещё

Простой
Как в mc подключится к выносному дисководу?
- 2 подписчика
- 04 нояб.
- 264 просмотра
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

У вас метрики странные, график показывает 60-80% iowait, а рядом в цифрах меньше 1%.
Что показывает
iostat -x -m 1
когда LA выходит под 40-60?
Сейчас load average: 27,63, 25,51, 24,38

Данные iostat -x -m 1

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sdb 0,00 36,00 0,00 13,00 0,00 0,21 33,69 0,00 0,00 0,00 0,00 0,00 0,00 sda 0,00 36,00 7,00 13,00 0,11 0,21 33,10 0,01 0,25 0,71 0,00 0,25 0,50 md1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 md2 0,00 0,00 7,00 45,00 0,11 0,21 12,62 0,00 0,00 0,00 0,00 0,00 0,00 dm-0 0,00 0,00 7,00 44,00 0,11 0,21 12,86 0,02 0,35 0,71 0,30 0,35 1,80 dm-1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 avg-cpu: %user %nice %system %iowait %steal %idle 93,49 0,00 4,26 0,00 0,00 2,25 Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sdb 0,00 31,00 0,00 14,00 0,00 0,16 23,64 0,00 0,07 0,00 0,07 0,07 0,10 sda 0,00 31,00 5,00 14,00 0,08 0,16 25,84 0,00 0,11 0,20 0,07 0,11 0,20 md1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 md2 0,00 0,00 5,00 38,00 0,08 0,16 11,16 0,00 0,00 0,00 0,00 0,00 0,00 dm-0 0,00 0,00 5,00 37,00 0,08 0,16 11,43 0,02 0,45 0,20 0,49 0,45 1,90 dm-1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 avg-cpu: %user %nice %system %iowait %steal %idle 89,80 0,00 4,28 0,00 0,00 5,92 Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sdb 0,00 19,00 0,00 10,00 0,00 0,11 21,60 0,00 0,20 0,00 0,20 0,20 0,20 sda 0,00 19,00 0,00 10,00 0,00 0,11 21,60 0,00 0,10 0,00 0,10 0,10 0,10 md1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 md2 0,00 0,00 0,00 24,00 0,00 0,10 8,67 0,00 0,00 0,00 0,00 0,00 0,00 dm-0 0,00 0,00 0,00 23,00 0,00 0,10 9,04 0,01 0,48 0,00 0,48 0,48 1,10 dm-1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Answer 1 · 2019-08-01 07:37:40

Всем спасибо за помощь и советы!

Было сделано сразу две манипуляции способствующие решению проблемы. Какая из них решила проблему точно уже не скажу.

У Битрикс есть таблица с купонами скидок каталога, в ней у нас было 300 тыс. купонов. Так как изменить запрос нет возможности из-за его системности и обновления Битрикс все затрут, то были проведены тесты с данными. Удаление из таблицы 200 тыс. старых купонов позволило ускорить медленный запрос с ~1.3 сек. до 0.01 сек. В таблице осталось 60 тыс. купонов.
Будем дорабатывать систему автоматической очистки купонов и писать обращение в Битрикс с просьбой оптимизации запроса. Хотя медленный запрос по данным мониторинга и отрабатывал ~3.7 раз в секунду, но это не мешало ему душить процессор.

Второе мероприятие это переход с mariadb (10.1, 10.3 - обе версии тестировались по несколько дней) на percona 8. Предположение пало на проблему базы данных с нашим набором данных и запросами, была мысль, а вдруг в перконе знаю и устранили ошибку.

Я все же полагаю, что ключевой фактор тут был указанный Vitaly Karasik на медленный запрос.
Видимо на наших данных этот запрос вызывал блокировки и высокую нагрузку на CPU из за повышения значений метрик RW Locks S OS Waits, RW Locks X OS Waits, RW Locks S Spin Rounds, RW Locks X Spin Rounds. Купонов становилось больше и в какой-то момент времени их кол. стало критичным для запроса.

Плавающий LA независящий от количества запросов к базе данных оказался влиянием вызова заданий по крону на выгрузку в яндекс маркет каталогов. Буду привязывать отображение заданий агентов Бирикс (крон задачи) на графиках, чтобы в будущем более явно строить связи нагрузки и работу приложения.

UPDATE 09.08.2019

Базу данных вернул на mariadb 10.3. Выяснился еще один запрос повышающий нагрузку на CPU. У нас около 1 млн. сессий в база данных. Так вот Битрикс в методе Sale\Fuser::getIdByUserId($ID) получения одной записи не выставляет лимит и еще и сортирует всю выборку. Если передается FALSE, то он сортировал в нашем случае около 1 млн. записей + добавлял туда каждый раз еще 1 запись. Обращение в Битрикс отправлено, они его приняли и судя по всему скоро будет выпущено обновление.
Кому нужно решение сейчас - измените метод прямо в ядре Sale\Fuser::getIdByUserId таким образом.

$res = FuserTable::getList(array(
                       'filter' => array(
                               'USER_ID' => $userId
                       ),
                       'select' => array(
                               'ID'
                       ),
                       'limit' => 1, // Добавить лимит
                       // 'order' => array('ID' => "DESC") // Убрать эту сортировку
               ));

Answer 2 · 2019-07-30 08:39:08

А slow query log у вас был включен раньше, до проблемы? Если да, то интересно сравнить.
Я бы продолжил оптимизировать/убирать проблематичные запросы.

Answer 3 · 2019-07-30 17:40:42

много всего интересного, но не увидел тип движков таблиц.
возможно где-то есть таблица MyISAM которая блокируется, а еще в первой строчке key-buffer-size = 32M написан неправильно, он как раз влияет на скорость работы MyISAM таблиц, при такой конфигурации можно 1G поставить

key_buffer_size = 1G
myisam_sort_buffer_size = 128M
myisam_max_sort_file_size = 10G
myisam_max_extra_sort_file_size = 10G

Проседание производительности mariadb, linux. Почему растет Load Average до 30-40?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт