Веб-сервер VirtualBox (linux alpine + nginx + php-fpm + postgresql)
В какой то момент веб-интерфейс перестал отвечать, по логам стало ясно, что база данных перестала отвечать, завис процесс postgresql, при этом Load average увеличился в разы.
postmaster.log
2025-05-06 09:34:16.040 MSK [3340] FATAL: the database system is shutting down
2025-05-06 09:34:31.041 MSK [3519] FATAL: the database system is shutting down
2025-05-06 09:34:46.041 MSK [3538] FATAL: the database system is shutting down
top
Mem: 18314384K used, 1688784K free, 201372K shrd, 584188K buff, 6191112K cached
CPU: 0% usr 13% sys 0% nic 85% idle 0% io 1% irq 0% sirq
Load average: 16.02 16.03 16.00 8/389 2466
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
9805 12923 postgres R 226m 1% 0 12% postgres: bums_www megabase 127.0.0.1(50814)
Во время сбоя в системных логах наблюдались ошибки:
dmesg -T
.............
watchdog: BUG: soft lockup - CPU#0 stuck for 37522s! [postgres:9805]
..............
[Tue May 6 09:13:04 2025] rcu: INFO: rcu_preempt self-detected stall on CPU
rcu: 0-....: (12112860 ticks this GP) idle=ac6c/1/0x4000000000000000 softirq=74957625/74957676 fqs=6054012
rcu: (t=12114827 jiffies g=102999477 q=15248875 ncpus=8)
.........
ps aux
9805 postgres 11h24 postgres: bums_www megabase 127.0.0.1(50814)
Попытка перезапустить postgresql или остановить, завершается ошибкой failed:
sudo /etc/init.d/postgresql restart
* Stopping PostgreSQL 16 (this can take up to 15 seconds) ...
...............
* start-stop-daemon: 1 process refused to stop
* Failed to stop PostgreSQL 16
Команда
kill 9805 не завершает процесс
В конечном итоге помог перезапуск виртуальной машины, но хотелось бы понять причину и правильный способ решения
Не уверен, что как то связано, но после перезапуска машины, в системных логах наблюдаются ошибки:
[drm] *ERROR* vmwgfx seems to be running on an unsupported hypervisor.
[drm] *ERROR* This configuration is likely broken.