Я свою проблему решил, но точного рецепта не скажу. И в потолок памяти все таки процессы упирались, правда это происходило так резко что мониторинг ничего не успевал показать.
Был комплекс всяких изменений сделан:
— php сделан с минимальным набором модулей
— убрал new-relic экстеншен для мониторинга работы пхп(есть подозрения что от него могло залипать)
— субд переехала с Amazon RDS на обычный EC2, что позволило более тонко настроить мускуль
— был выявлен запрос который мог тормозить работу из за большого объема передаваемых данных(вариант с бизнес-логикой в пхп) или нагружать базу(бизнес-логика на субд) и соответственно немного переделана архитектура что бы избежать этих проблем
Так что по большому счету это проблема со стороны кода скорее, а со стороны сервера немного странное поведение при возникновении этой проблемы.