Суть проблемы: если дать нагрузку на дисковую подсистему - взлетает показатель latency и всё перестаёт работать.
На рисунке - нагрузочное тестирование 1С
Что делалось:
Заменены SSD-дисков на другую модель
Кэширование, буферизацию и прочие рейдовые фишки отключал
Обычный драйвер AHCI отключал
Диски заняты менее, чем наполовину. Но размечено всё пространство под VMFS6
Конфигурация:
ОС: ESXi 6.7
ЦП: i7-3770
Массив: LSI Megaraid 9260 на 4 слота (512 RAM)
2 слота энтерпрайс HDD в зеркале
2 слота SSD в зеркале (были intel, теперь какие-то micron 1100)
Сервер в Hetzner
Симптомы:
Кэш включён для всего и вся, но при выключении ситуация становится только хуже.
Показательным может быть линейное копирование файла 50ГБ между датасторами. После 5 минут копирования на скорости 150МБ скорость резко падает, а задержи резко возрастают. При этом вообще вся система перестаёт нормально откликаться.
То же самое происходит при, например, нагрузочном тесте 1С, если запустить 100 пользователей - резко всё виснет и взлетает latencу на SSD-массиве.
Копирование между datastores с HDD на SSD одного файла 50 GB
Вот показатели предыдущих Intel SSD с выключенным кэшем массива:
В ивентах сообщения:
Device naa.600605b0057d5c40ff0284b36d816610
performance has deteriorated. I/O latency increased from average value of 4580 microseconds to 210110 microseconds.
При этом, массив из HDD отрабатывает точно так, как должен (мелкий и большой файлы для отображения работы кэша рейда)
На соседнем сервере такой же RAID, ESXi версии 6.5 в 2 SSD datacenter edition, что влиять не должно, но там выше 10мс вообще не прыгает latency.
upd. Скрин esxtop при копировании между датасторами (HDD->SSD). Latency 20-50ms колеблется
Как быть, куда посмотреть?