Вообще независимо от того что используется - стоит снять профили производительности. Уже исходя из этого будут выявлены узкие места. Возможно дисковая подсистема, возможно память, возможно сеть, возможно процессоры.
Так что для начала - perfmon хотя бы, а потом более подробно по компонентам. Как итог - чего не хватает и кому.
Исходя из этого вполне может быть что получится вывод что надо уходить на рекомендуемые варианты масштабирования в виде разнесения всех звеньев на разные серверы, каждый из которых будет иметь разные требования к критичной для функции части.