Как диагностировать зависание php-fpm процессов?

Question

Сергей Соколов @sergiks

♬♬

Как диагностировать зависание php-fpm процессов?

На VPS стоит Ubuntu 18, nginx, mysql, redis, php7.2-fpm крутится веб-приложение на Laravel. Давно и нормально.
Вдруг сегодня процессы php-fpm выпали в статус "D" (uninterruptible sleep (usually IO)) и по kill -9 не убиваются.
Варианты либо ждать не понятно, чего. Либо reboot.

Первый раз sudo systemctl reboot перезагрузил сервер.
Второй раз не смог за несколько минут. Пришлось через панель хостинга Power cycle запускать.

Три раза уже возникала такая ситуация, требующая reboot сегодня. Никогда такого не было, и вот опять.

В похожем вопросе на SO выяснили, что у них причиной был исполняемый код, связанные с обновлением кэша, параллельно запускавшийся во всех инстансах php-fpm.

В логах не нашёл ничего подозрительного-необычного перед очередными зависаниями. Приложением активно пользуются, по несколько запросов в секунду бывает, но всё как всегда.

Смотрел логи nginx, php-fpm и Laravel-приложения.

php-fpm, по мере выпадения в осадок воркеров, запускал новые, пока не упирался в лимит:

[12-Oct-2019 14:26:07] WARNING: [pool www] server reached pm.max_children setting (8), consider raising it

nginx перед проблемой или уже в её результате начинал сообщать про timeout:

[error] 1053#1053: *13891 upstream timed out (110: Connection timed out) while reading response header from upstream

dmesg пишет про непонятный jbd2/sda-8 и сразу за этим тоже про php-fpm:

484.254707] INFO: task jbd2/sda-8:1540 blocked for more than 120 seconds.
[  484.262192]       Not tainted 4.15.0-65-generic #74-Ubuntu
[  484.272558] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[  484.280122] jbd2/sda-8      D    0  1540      2 0x80000000
...
[  484.280256] INFO: task php-fpm7.2:1584 blocked for more than 120 seconds.
[  484.286958]       Not tainted 4.15.0-65-generic #74-Ubuntu
[  484.292249] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[  484.305238] php-fpm7.2      D    0  1584    858 0x00000000

VPS (droplet) на DigitalOcean, к ней подключён block storage Volume – как dev/sda. Первая запись в dmesg про него? Из-за этого подключенного volume происходит затык? Как можно его try-catch?

Что смотреть, как понять причину возникновения ситуации?

Upd. техподдержка ответила, что проблема была в физическом оборудовании сервера, где находился инстанс. Они всё починили, проблема исчезла. Заодно перенесли дроплет на другое физ. оборудование на всякий случай. Вопрос снят. Очень хороший ответ Роман Мирр помог разобраться, спасибо!

Вопрос задан более трёх лет назад
1393 просмотра

Комментировать

Подписаться 3 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее

Решения вопроса 1

3 комментария

Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

Спасибо большое! Похоже, действительно, проблема в I/O этого подключённого Volume.
DO пишут, что их этот block storage подходит и для хранения файлов БД. Я там держу небольшие файлы с данными, которые периодически обновляю/читаю.
По данным atop, дисковая активность jbd2/sda-8 достигает и 29%, а основного процесса php, который обновляет данные, и 56%.
Видимо, это много. Буду думать как оптимизировать этот bottleneck.

Написано более трёх лет назад
d'Ivan @2ord

Сергей Соколов, strace в помощь.

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

Upd. провайдеры написали, что проблема была в физическом оборудовании сервера, где находился инстанс:
Sorry to hear about the issues experienced here. Reviewing things, I do see that there was an issue on the physical host for your machine, which our Cloud Operations team was able to resolve. This could have led to decreased performance, as well as issues with event processing, such as powering off and on. If you would prefer, I am happy to live migrate your Droplet to an alternate physical host, I would just need your confirmation, and your desired time/timezone if you have a preference there.

Block storage is suitable for storing files that are updated frequently - have you faced any previous issues with Volume performance?

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Почему переодически появляется сообщение в браузере « Прокси-сервер отказывается принимать соединения»?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Linux

+3 ещё

Средний
Каскадный VPN Vless+Realty — почему отваливается SSH?
- 3 подписчика
- 29 апр.
- 930 просмотров
1

ответ
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 87 просмотров
1

ответ
Linux

+1 ещё

Средний
Как запретить пользователю авторизацию через одноименного системного пользователя?
- 3 подписчика
- 29 апр.
- 296 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 197 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 216 просмотров
3

ответа
Linux

+1 ещё

Средний
Как добавить в cryptsetup поддержку опции tpm-with-pin в ubuntu 24.04.4?
- 1 подписчик
- 19 апр.
- 126 просмотров
1

ответ
Linux

Средний
Как отладить зависание RK3568 U-boot на Starting kernel?
- 2 подписчика
- 16 апр.
- 117 просмотров
0

ответов
Linux

+2 ещё

Простой
Как исправить интерфейс wireshark?
- 1 подписчик
- 15 апр.
- 250 просмотров
1

ответ
Linux

Простой
На сервере stderr перенаправляется в /dev/null после любой команды. Как решить проблему?
- 2 подписчика
- 10 апр.
- 275 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

PHP и Node.js разработчик

TripShock Adventures

от 1 000 до 2 500 $

Answer 1 · 2019-10-12 22:23:22

jbd2 это подсистема, работающая с ext4.
Похоже что высокая активность I/O.
Чтобы узнать подробнее, нужно иметь историю событий. Программа atop умеет вести учет процессов и ресурсов, позволяя позже проиграть историю, выяснив причину проблемы.
https://haydenjames.io/use-atop-linux-server-perfo...
https://haydenjames.io/linux-server-performance-di...

Как диагностировать зависание php-fpm процессов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт