похоже что проблема в банальной нехватке памяти
Сервер 16Gb памяти
redis 7 Gb
php-fpm 5-8 Gb
Думаю малейшие перегрузки по памяти приводили к свопу или отказам. Подтверждений правда пока не увидел. Расгрузил сервер, убрал часть нагрузки на запасной, посмотрим как сегодня на пике нагрузки будет.
P.S. Спасибо за наводку на newrelic - штука офигенная, но и дорогая собака