Karmashkin, спасибо, видел. Но нет, не тот случай. ulimit анлимитед, по остальному тоже упереться некуда - инод как грязи, места тоже, в IO не упирается - в общем, проверил уже всё, что можно.
По логике работы в момент ошибки нода стучится в какую-то из нод из списка wsrep_cluster_address, пытается всунуть ей синхронизационную транзакцию, но по некой причине это не получается. При этом, все ноды в статусе SYNCED - ну и это всё-таки warning, а не error.
Возвращаясь к вопросу - нашли причину. Включили немного дебаг-логов на одной из нод. Конфликты между транзакциями - так называемые Galera Transaction Locks.
Исправляем в коде - слишком перенагружены несколько таблиц - галеры между собой не могут договориться. Проблема возникает при избыточном кластере + большом объеме данных в таблицах.