MySQL грузит все ядра проца. Глюк?

Question

Александр Пащенко @point212

сисадмин linux, программист php

MySQL грузит все ядра проца. Глюк?

Лучше всего проблему иллюстритует сия картинка

Если описать это словами, то выходит так. Сервер работает как ни в чём ни бывало. Нагружено около половины ядер. И не на 100%, а на 50-70%. Потом внезапно нагрузка улетает в космос. При этом база встаёт раком, ответы происходят очень долго. Всё это длится 10-50 секунд, и потом опять перерыв на минутку.

И я никак не могу понять в чём причина этой беды. Ибо эту картинку я вижу не в первый раз. На нее я натыкался и ранее, еще лет 5 назад. То есть собственно версия ядра, дистрибутива или даже мускуля скорее всего не причем.

Причем по мониторингу (htop) видно что проц то загружен системным вызовом. Т.е. это или огромное количество некоторых вызовов к ядру, или интенсивное выделение-забирание памяти, или ввод-вывод.
Но как промониторить самые топовые вызовы ядра я не знаю. Память судя опять же по мониторингу массово не выделяется и не забирается (по меньшей мере гигабайтами, чтобы это было заметно).
iotop показывает ввод-вывод не сильно отличающийся от такового в нормальном состоянии.

Запросы во время глюка выполняются самые обычные. Не сказать чтобы как-то менялась пропорция выбор/обновление, или запрашивались особые таблицы. Думал может что-то по крону запускается из переодических заданий. Но я пробовал останавливать их все на время. Проблема остается.

К слову о сервере и системе: 2 x Xeon E5-2680v3 @2.5GHz (24 реальных ядра), 64Гб DDR4. SSD энтерпрайз уровня на 960Гб. Быстрые. Ну то есть сервер очень даже ничего. ОС Centos 7 (ядро 3.10), юзаю Percona 5.7. База на отдельном разделе (впрочем рояли это особо не должно играть). Кроме мускуля на сервере не стоит вообще ничего.
Собственно неделя как переехали со старого сервака, который был ровно в 2 раза слабее и перестал тянуть нагрузку.
Так вот на нём по началу я тоже видел такую же картину переодически. Но потом подобрал такие параметры в конфиге мускула, что всё вроде как улеглось. Но все ж сервак перестал тянуть, и мы переехали на новый... а тут опять эта проблема.

И тут время перейти к тому, чтобы рассказать что я УЖЕ делал:
1) Рестарт мускула - спасает ситуацию на минуту
2) Рестарт сервера ни на что не влияет
3) Тюнинг параметров. Пробовал дефолтные. Пробовал со старого сервака. Пробовал поднимать до разумных значений. Пробовал до неразумных. Пробовал тюнить по советам утилиты mysqltuner. Ничего не помогает.

Важное замечание: проблема наблюдается только в час пик. Так что всё это явно коррелирует с нагрузкой на мускул сервер. В остальное время дня всё окей.

Что еще я хочу сказать... я не настоящий сварщик. В смысле не DBA. Просто рядовой Linux-админ. Я плохо понимаю как внутри устроен mysql, innodb и так далее. Поэтому и прошу помощи. Разобраться сам не смог.

Ниже прикреплю на всякий случай шапку от mytop:

MySQL on localhost (5.7.18-16)                                                              up 0+00:38:59 [00:32:19]
 Queries: 26.1M  qps: 11695 Slow:     0.0         Se/In/Up/De(%):    66/09/04/00 
             qps now: 11493 Slow qps: 0.0  Threads:  180 (   5/   8) 66/09/04/00 
 Key Efficiency: 93.0%  Bps in/out: 11.0M/89.7M   Now in/out: 10.7M/90.5M

Сейчас конечно не час-пик уже. Но хоть какая-то инфа.

И заодно конфиг мускула

[mysqld]
bind-address=xxxx
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
user=mysql
symbolic-links=1
innodb_buffer_pool_size=16384M #пробовал всякое. от 8 до 32гб. разницы нет
innodb_log_file_size=1024M # тоже всякое. вплоть до комментирования
innodb_flush_method = O_DIRECT
innodb_flush_log_at_trx_commit = 0
sql-mode=""
query_cache_size = 4096M # тоже менял от 0 до 4гб
join_buffer_size = 64M
thread_cache_size = 8
max_connections=8192
open_files_limit=8192
explicit_defaults_for_timestamp=1

max_allowed_packet=128M

log-error=/var/log/mysqld.log
log_error_verbosity=2

[mysqld_safe]
log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid
open_files_limit=4096
innodb_buffer_pool_populate = yes
flush_caches = yes
numa_interleave = yes

Если интересно, могу опубликовать скрин Mysql Workbench Dashboard во время того когда мускул глючит.
Или Perfomance Statistics. Все равно я в ней ничего особо не понимаю.

Очень хочется разрешить уже этот глюк для себя. И понять почему он возникает.
Пока подозрения на то что у меня мускул сконфигурирован так, что потенциально может запросить больше памяти чем есть. И это как-то сносит крышу ядру.

Вопрос задан более трёх лет назад
13181 просмотр

11 комментариев

Подписаться 19 Сложный 11 комментариев

x67 @x67

Предполагаю, что диск загибается. У вас ссд/хдд? На ближайших выходных проверьте диск, проведите обслуживание БД, проверьте запросы, может какое то ПО глючит? или кто то качает/грузит данные с помощь десяти тысяч запросов?

Написано более трёх лет назад
Arris @Arris

tiptop
mtop
- какие-нибудь есть результаты интересные?

Написано более трёх лет назад
Arris @Arris

Попробуйте innodb_file_per_table и перестройте базу - чтобы таблицы легли по отдельным файлам.

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

x67: Это абсолютно новый сервак. SSD тоже новый. ПО на сервере никакого не стоит, кроме Percona. Даже лишние демоны повырубал.

Да и кроме того, я писал в вопросе что такую картинку вижу не в первый раз. Видел ее и раньше на других серверах. С другим ПО. Еще лет 5 назад видел такое.

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

Arris: Эти утилиты не смотрел. Посмотрю. Скорее всего нет ничего интересного.
Я через dstat смотрю. Там наглядно видно со временем всю активность по процу/диску/сети.
Так вот, как я уже писал, ничего экстраординарного там нет.

ТТ.е. это не связано с валом запросов которые резко обрушиваются на мускул. Нет. Их столько же. Это не связано с активностью диска. Она подрастает в момент затупа. Но не значительно. И уж тем более не может исчерпать бюджет SSD дисков по IOPSам.

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

Arris: Кстати странно что директивы этой нет. По факту база уже разбита по файлам. Может случайно вынес ее из конфига.

Тем не менее в Mysql Workbench во вкладке Perfomance Reports видно что база активно работает именно с отдельными файлами.

Написано более трёх лет назад
Arris @Arris
Александр Пащенко: попробуйте все таки innodb_file_per_table

На профильных форумах перконы спрашивали?

while true; do date; ps auxf | awk '{if($8=="D") print $0;}'; sleep 1; done

Был бы доступ к серверу в ридонли хотя бы - не надо было бы надевать шапочку экстрансенса ;) А то ошибка может быть вообще не там, где мы её ищем.
Написано более трёх лет назад
Arris @Arris

blktrace вы наверное пробовали?

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

Arris: а что это даёт?

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

Arris: Нет. Даже не знаю что это такое.
Я сегодня вечером думаю попробовать подключиться через strace и глянуть top10 системных вызовов.
Но что-то мне кажется что всё дело таки в leap second bug.

Насчёт доступа: к сожалению пока никак. Если не разберусь с вашей помощью, буду пробивать возможность заказать консультацию у спеца. Если есть желание - пишите :) Учтём при поисках.

Написано более трёх лет назад
Arris @Arris

Александр Пащенко: я вас лучше к своему знакомому именно спецу направлю, сам-то я так, наступал на некоторые грабли :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Linux для робототехников

3 месяца

Далее
Учебный центр IBS

AL-1802 Администрирование Astra Linux Special Edition 1.8

2 недели

Далее
Слёрм

Linux для разработчиков

2 недели

Далее

Решения вопроса 3

5 комментариев

Александр Пащенко @point212 Автор вопроса
Про NUMA INTERLEAVE я читал как раз в документации по Percona.
И я его включил в настройках мускула. Согласно доке в Перконе 5.7 она сама умеет при запуске устанавливать нужный интерлив.
Вон в конфиге же
[mysqld_safe] numa_interleave = yes

На старом сервере забил на это и не включал. Тем не менее все работало нормально. Хотя своппинг действительно был чуток.
Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

А, да. Про leap second спасибо что напомнили. Щас погуглю.
Помню что-то такое раньше я уже читал.

Написано более трёх лет назад
vlarkanov @vlarkanov

Александр Пащенко: лучше всего своп долой, мускул вообще не должен свопиться. Чтобы проверить хватит ли памяти, стоит попробовать сделать
echo 0 > /proc/sys/vm/swappiness (команда зависит от дистра)

Если взлетит - убирать swap из /etc/fstab и сносить раздел из таблицы разделов. Если при swappiness =0 мускул под нагрузкой падет жертвой OOM killer'a - вернуть swappiness как было (кажется, 60 - но лучше погуглить).

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

vlarkanov: swappiness поставил в 1, как написано в мануале то ли по тюнингу производительности, то ли в доке от Percona. Не помню уже. Разницы особой нет.
Да и судя по мониторингу (Newrelic) своп вообще не юзается.

На самом деле по описанию очень похоже на leap second bug.
Но у меня не установлен ntpd.
Буду копать далее.

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

Что с IO? Какова нагрузка на диск? Посмотрите через iotop например.

Смотрел. Прекрасно всё. Мизер. 5-25мб запись. Чтение так же от 5 до 150Мбайт (в пике). Но для этих ССД это семечки.

По параметрам. Кроме мускула на сервере что-то крутится? Если нет, смело выкручивайте
innodb_buffer_pool_size до примерно 70% объема RAM.
Ничего вообще. Писал выше. Штатные демоны, которые при установке ОС поставились только. Да и то часть повырубал. Потому что Centos 7 для меня относительно новая. Я еще не понял что все эти tuned и прочие странные штуки делают ))) Привык что у меня на серваке 3-4 демона висит.

Пробовал ставить ну не 70%, но 50%. Побоялся что таки из-за памяти проблемы. Типа я не рассчитал какой-то из параметров, и он помноженный на число коннектов или запросов сжирает память.
Поэтому на всякий случай уменьшил все показатели сейчас.
Но как я уже писал глюк наблюдается в любом случае. При любых параметрах. От дефолтных, до очень высоких значений.

innodb_log_file_size - это размера лога транзакций innodb. Чем он больше - тем реже пересоздается этот файл, и тем меньше нагрузка на диск. Но тем дольше восстановление в случае сбоя. 512mb должно хватить.
Спасибо за разъяснение. Лучше наверное вообще его закомментить. Я почему-то думал что это область памяти такая, где транзакции хранятся.

innodb_flush_log_at_trx_commit = 0 Вы уверены? Поставьте хотя бы 2 - по производительности тож на тож, но безопаснее. А лучше и вовсе 1. Медленно, зато надежно.
Не-не. Ну его нафиг. Это реально переключатель коробки в спорт-режим. С любыми другими значениями всё очень медленно.
Проблем пока не было. Бэкапы всех таблиц через xtrabackup делаются каждый час. Для нас это вполне приемлимо.

query_cache_size = 4096M Куда столько? Помните, что при каждом INSERT\UPDATE этот кеш переписывается. Поставьте 100mb для начала.
А вот это я забыл. Точно.... читал же. Может быть это и есть причина бед. Постоянное выделение памяти...
Спасибо. Поставлю мелкий кэш.

Написано более трёх лет назад

1 комментарий

6 комментариев

Александр Пащенко @point212 Автор вопроса

Да htop я юзаю чисто для наглядности. top показывает ту же петрушку в целом.
Как там с тредами я хз. Скорее всего аггрегируются все.

thread_cache_size пробовал ставить и 200 и даже чуток выше (судя по наблюдениям он в реале у меня не прыгает более 180). Ничего не менялось по характеру проблемы.

Написано более трёх лет назад
poige @poige

Ну раз такое дело, мне, пожалуй, остаётся предложить попробовать thread pool, разве что. :)

Написано более трёх лет назад
poige @poige

Нууу? Не опробовано ещё что ли?

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

poige, опробовано.
похоже что включение thread pool помогло.
Я правда еще пару вещей из доки от Перконы там сделал.
Но похоже что проблемы нет.

Но на самом деле если она и есть - она перестала отражаться на общей работе сайта :) Поэхтому от меня отстали с этим проектом. А т.к. их тут дохрена а я один - я все время забываю вечером глянуть как там дела.

Написано более трёх лет назад
poige @poige

Ну что ж, время покажет. )

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

poige, Спасибо за совет!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

5 комментариев

Александр Пащенко @point212 Автор вопроса

Спасибо, конечно, за развёрнутый ответ.
Я писал выше, что движок у нас самописный на Laravel. C огромным количеством legacy-кода. Все запросы генерируются через ORM фреймворка.
Видимо до EXPLAIN дело не дойдёт. Т.к. сейчас все силы брошены на переписывание движка на Yii2. Необходимость давно назревала, но всё как-то откладывали.

Блокировки возможны, и даже наверняка сильно тормозят дело. Но навряд ли именно они - причина такого странного поведения мускуля.

Более того, от myISAM как раз отказались по причине блокировок. Там блокируется вся запись, а то и вся таблица. А в InnoDB только строка/столбец, задействованный в обновлении.

Написано более трёх лет назад
dummyman @dummyman

Александр Пащенко, myisam работает архибыстро т.к. в myisam не вносили архитектурных изменений со времен популярности (и актуальности) mysql3. На тот момент mysql3 пользовались для своих расчетов даже NASA.
InnoDB конечно хороша, и даже уже стабильна. Но, когда сжатый gz-файл таблицы весит >16Gb, а примитивный key-индекс >500Mb, innodb делает примитивный SELECT одной записи по ключу около 10сек, без ключа по точному совпадению каждого символа в строке >4 мин. myisam с поиском по строке без индекса справляется за 1.7сек. В тестах использовал таблицу состоящуюю из трех полей: id, url, name. Данные - каждая строка содержит соответствующую информацию определенного пользователя вконтакта. Не смотря на то, что таблица содержит текстовые данные, строки заданы фиксированным размером. Даже если обявить индексы по всем полям, myisam добаляет >10к записей в секунду (с ростом БД скорость падает незначительно), innodb под конец теста добавлял одну запись за ~30сек.

Написано более трёх лет назад
dummyman @dummyman

Александр Пащенко,
Блокировки возможны, и даже наверняка сильно тормозят дело. Но навряд ли именно они - причина такого странного поведения мускуля.

Что именно кажется странным? Я почти уверен, mysql проц жрет именно организация очереди. Через какие-то промежутки mysql сбрасывает соединения как зависшие, это дает вздохнуть хоть немного idle процу сервера, но если проект под нагрузкой, все повторится...

Написано более трёх лет назад
dummyman @dummyman

Александр Пащенко, Если у вас много оперативки и нет гиганстких массивов данных, из быстрых решений могу посоветовать часто используемые таблицы подменять временными таблицами. Но тогда придется вручную запускать синхронизацию и существует вероятность потери последней информации. - Например, статистику посещений, скажем, за последние 15 мин потерять не жалко. Ну и вообще смотреть на критичность тех или иных данных. Временные таблицы хранят данные в оперативке, почти не нагружают io, не напрягают чтением/записью ваш raid. Это самый простой сисадминский шаг, то есть в коде пыха ничего менять не придется.

Написано более трёх лет назад
dummyman @dummyman

Александр Пащенко,
Видимо до EXPLAIN дело не дойдёт.

Кстати, очень напрасно. Бывает, решением всех бед с производительностью может являться создание простого индекса из двух полей.

Написано более трёх лет назад

3 комментария

Александр Пащенко @point212 Автор вопроса

отключён. да собственно с медленными никто разбираться не будет. все запросы строятся ORM из Laravel.
Откровенное медленные мы видим через Newrelic. И если они тормозят бизнес-ядро ребята переписывают.

А всякие медленные типа статистики в админке и проч никто не трогает. Впрочем их число незначительно и им можно пренебречь. Они медленные в основном из-за объема данных.
Там есть таблицы со статистикой в которых например 200млн записей.

Написано более трёх лет назад
evnuh @evnuh

Александр Пащенко:
отключён
после этого дальше не читал. Включайте и сопоставляйте по времени всплески нагрузки и медленные запросы.

Написано более трёх лет назад
Александр Пащенко @point212 Автор вопроса

evnuh: Да нет там таких запросов. Я же говорю, я сидел смотрел на mytop и на Dashboard в mysql workbench.
Если б какой-то запрос регулярно повторялся и работал десяток-другой секунд - я бы его заметил.

Но так уж и быть. Включу slowlog вечером, посмотрю чего туда попадает.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Не работает apt update && apt upgrade в Kali Linux. Что делать?
- 1 подписчик
- 20 часов назад
- 234 просмотра
2

ответа
Системное администрирование

+1 ещё

Простой
Что будет если выдернуть из розетки mikrotik находящийся в режиме safe mode?
- 2 подписчика
- 03 дек.
- 313 просмотров
1

ответ
Linux

+1 ещё

Простой
На чем практиковаться начинающему админу?
- 3 подписчика
- 30 нояб.
- 785 просмотров
3

ответа
Windows

+1 ещё

Простой
Windows XP активация как решить без потери памяти?
- 2 подписчика
- 27 нояб.
- 706 просмотров
6

ответов
Linux

+2 ещё

Простой
В shinobi отображаются видео только за 24 часа, как увидеть все?
- 3 подписчика
- 27 нояб.
- 208 просмотров
0

ответов
Linux

+1 ещё

Средний
Почему не монтируются сетевые шары при VPN?
- 3 подписчика
- 23 нояб.
- 781 просмотр
1

ответ
Linux

+2 ещё

Средний
StrongSwan IKEv2/IPSec и fail2ban, как правильно настроить?
- 2 подписчика
- 22 нояб.
- 479 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 188 просмотров
2

ответа
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 3 подписчика
- 19 нояб.
- 871 просмотр
10

ответов
Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- 19 нояб.
- 1071 просмотр
3

ответа
Показать ещё Загружается…

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Специалист первой линии технической поддержки

Петрович-Тех

До 52 882 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Предполагаю, что диск загибается. У вас ссд/хдд? На ближайших выходных проверьте диск, проведите обслуживание БД, проверьте запросы, может какое то ПО глючит? или кто то качает/грузит данные с помощь десяти тысяч запросов?
tiptop
mtop
- какие-нибудь есть результаты интересные?
Попробуйте innodb_file_per_table и перестройте базу - чтобы таблицы легли по отдельным файлам.
x67: Это абсолютно новый сервак. SSD тоже новый. ПО на сервере никакого не стоит, кроме Percona. Даже лишние демоны повырубал.

Да и кроме того, я писал в вопросе что такую картинку вижу не в первый раз. Видел ее и раньше на других серверах. С другим ПО. Еще лет 5 назад видел такое.
Arris: Эти утилиты не смотрел. Посмотрю. Скорее всего нет ничего интересного.
Я через dstat смотрю. Там наглядно видно со временем всю активность по процу/диску/сети.
Так вот, как я уже писал, ничего экстраординарного там нет.

ТТ.е. это не связано с валом запросов которые резко обрушиваются на мускул. Нет. Их столько же. Это не связано с активностью диска. Она подрастает в момент затупа. Но не значительно. И уж тем более не может исчерпать бюджет SSD дисков по IOPSам.
Arris: Кстати странно что директивы этой нет. По факту база уже разбита по файлам. Может случайно вынес ее из конфига.

Тем не менее в Mysql Workbench во вкладке Perfomance Reports видно что база активно работает именно с отдельными файлами.
Александр Пащенко: попробуйте все таки innodb_file_per_table

На профильных форумах перконы спрашивали?

while true; do date; ps auxf | awk '{if($8=="D") print $0;}'; sleep 1; done

Был бы доступ к серверу в ридонли хотя бы - не надо было бы надевать шапочку экстрансенса ;) А то ошибка может быть вообще не там, где мы её ищем.
Arris: Нет. Даже не знаю что это такое.
Я сегодня вечером думаю попробовать подключиться через strace и глянуть top10 системных вызовов.
Но что-то мне кажется что всё дело таки в leap second bug.

Насчёт доступа: к сожалению пока никак. Если не разберусь с вашей помощью, буду пробивать возможность заказать консультацию у спеца. Если есть желание - пишите :) Учтём при поисках.
Александр Пащенко: я вас лучше к своему знакомому именно спецу направлю, сам-то я так, наступал на некоторые грабли :)

Answer 1 · 2017-08-23 10:56:39

Погуглите ошибку leap second - одним из ее симптомов может быть аномальная загрузка проца.

Ещё вариант: посмотрите как настроен и как функционирует NUMA. Возможно, стоит включить interleave в настройках mysqld_safe (через numactl).

Что с IO? Какова нагрузка на диск? Посмотрите через iotop например.

По параметрам. Кроме мускула на сервере что-то крутится? Если нет, смело выкручивайте
innodb_buffer_pool_size до примерно 70% объема RAM.
innodb_log_file_size - это размера лога транзакций innodb. Чем он больше - тем реже пересоздается этот файл, и тем меньше нагрузка на диск. Но тем дольше восстановление в случае сбоя. 512mb должно хватить.

innodb_flush_log_at_trx_commit = 0 Вы уверены? Поставьте хотя бы 2 - по производительности тож на тож, но безопаснее. А лучше и вовсе 1. Медленно, зато надежно.

query_cache_size = 4096M Куда столько? Помните, что при каждом INSERT\UPDATE этот кеш переписывается. Поставьте 100mb для начала.

Answer 2 · 2017-08-24 05:58:25

Поскольку у вас 24 ядра и 11.000 запросов в секунду query_cache лучше отключить.

[mysqld]
query_cache_size = 0
query_cache_type = 0   # важно ! отключает mutex, которым оперирует query_cache

Потому что в таких условиях он больше мешает чем помогает. Особенно если у вас мало таблиц и есть изменение таблиц, из которых чаще всего происходит чтение. Всё дело в том что ядра борятся за доступ к кэшу и если есть insert, update, delete в таблицу, для которой есть записи в кэше, то кэш всей этой таблицы обнуляется и снова ядра борятся кто будет обнулять, кто будет читать, писать и вся вот эта многопоточная борьба за мьютекс query_cache грузит CPU. И ещё кучу времени занимает очистка кэша если размер кэша большой(гигабайты).
Если интересно что происходит с кэшем гляньте SHOW STATUS LIKE "qcache%";
Там стоит обратить внимание на Qcache_lowmem_prunes. Чем эта переменная меньше тем лучше (в идеале 0 )- эта переменная показывает сколько раз обнулялся кэш для таблиц.

Answer 3 · 2017-09-11 16:53:15

> thread_cache_size = 8

Вот это имеет смысл поднять — можно сразу штук 200 поставить.

Про query_cache тут уже говорили, он, и правда, для детских нагрузок, потом быстро становится узким местом производительности — бесполезным, и даже вредным.

UPD.: thread-pool, похоже, помог

P. S. На самом деле, конечно, нужно знать природу нагрузки — какие это запросы, сколько одновременно прилетает, и так далее.

Отдельно могу заметить на тему htop — программка няшная, но, зачастую, кривая. Вот, судя по скрину, включён показ отдельных thread'ов — откуда тогда у одного треда 4k CPU usage? Или это он не только показывает отдельные threads, но ещё и агрегирует их per process? Обычный Linux'овый top, в этом плане, как-то понятней.

Answer 4 · 2017-08-26 13:51:08

Итак, граждане. У меня всё хорошо. Проблема ушла.

Похоже дело было именно в массивных операциях с памятью, которые мускул/ядро вынужден был проводить раз в несколько десятков секунд. А причиной тому были неправильные настройки буфферов и кэшей в конфиге.
И скорее всего самой повлиявшей из них был query_cache_size.

Вторая вещь (а скорее даже первая) которую нужно проверить и убедиться что у вас нет с этим проблем - это leap second bug. Гуглите в инете, смотрите и проверяйте.

Спасибо всем, кто участвовал в обсуждении.

Погорячился я, ребята.
С увеличением нагрузки проблема вернулась :( Увы... так что вопрос всё ещё открытый.
Что крутить дальше - не знаю.

Answer 5 · 2017-09-05 21:58:14

Похоже, отлаживать ситуацию придется на уровне модификации запросов из приложения. Как уже упоминалось выше, на момент отладки следует включать и анализировать лог медленных запросов. Где-то дописать индексы, где-то заменить чтение из обычной таблицы на чтение из временной таблицы. Тут же, самим SQL регламентирован инструмент всех времен и народов - EXPLAIN.
Отдельным моментом стоит обратить внимание на блокировки. Часто сталкивался с ситуацией, когда множество запросов на чтение не дают выполняться запросам на запись (или наоборот перегруз запросов на запись блокируют чтение), чем под нагрузкой моментально переполняют очередь - и основное процессорное время расходуется управлением этой очередью. Конкретно из своего опыта (я работал чуть больше года техником в хостинг-конторе), чаще всего проблема проявлялась у сайтов на базе Wordpress. Причем, сам движок Wordpress оптимизирован достаточно хорошо. Проблема в бесконечном количестве плагинов от авторов средней руки. Особенно, плагины, связанные со сбором/подсчетом статистики. При генерации одной страницы используется десятки противоречащих друг-другу запросов на чтение и запись. Бывало, из-за блокировок два одновременно работающих (конкурирующих) инстанса php посылают к БД запросы блокирующие работу друг-друга с такой интенсивностью, что адекватная работа возможна только ограничением их количества одним лишь инстансом php. И никакой переезд на более мощный или облачный сервер не поможет. Логические ошибки решать наращиванием мощностей неэффективно и может быть очень дорого. - А потому любое наращивание мощностей железа - есть решение временное, и способно отсрочить работы по отладке максимум на несколько дней. В проектировании приложений (как web/rest, так и standalone) надо понимать что делает каждый action - либо он пишет в БД, либо читает из БД. Если каждый action будет требовать много чтений и записей в одних и тех же таблицах, это обязательно приводит к проблемам блокировок.

Тулзами для анализа событий io для решения проблем mysql пользоваться бесполезно - mysql достаточно хорошо контролирует использование io не доводя ядро до перегрузок. Но, и опять же предоставляет множество настроек для несистемных ограничений, которые могут быть установленны неэффективно и проблему можно решить скорректировав их.

И еще мысль ради пищи для размышлений - во большинстве ситуаций таблицы MyISAM работают в разы быстрее InnoDB.