@zionkv
Системный администратор Windows\Linux

Взлетает latency SSD на массиве под ESXi, куда копать?

Суть проблемы: если дать нагрузку на дисковую подсистему - взлетает показатель latency и всё перестаёт работать.
5c4ff15f39c0c524814029.pngНа рисунке - нагрузочное тестирование 1С

Что делалось:
Заменены SSD-дисков на другую модель
Кэширование, буферизацию и прочие рейдовые фишки отключал
Обычный драйвер AHCI отключал
Диски заняты менее, чем наполовину. Но размечено всё пространство под VMFS6

Конфигурация:
ОС: ESXi 6.7
ЦП: i7-3770
Массив: LSI Megaraid 9260 на 4 слота (512 RAM)
2 слота энтерпрайс HDD в зеркале
2 слота SSD в зеркале (были intel, теперь какие-то micron 1100)
Сервер в Hetzner

Симптомы:
Кэш включён для всего и вся, но при выключении ситуация становится только хуже.
Показательным может быть линейное копирование файла 50ГБ между датасторами. После 5 минут копирования на скорости 150МБ скорость резко падает, а задержи резко возрастают. При этом вообще вся система перестаёт нормально откликаться.
То же самое происходит при, например, нагрузочном тесте 1С, если запустить 100 пользователей - резко всё виснет и взлетает latencу на SSD-массиве.
5c4ff46dc648c586955495.png Копирование между datastores с HDD на SSD одного файла 50 GB

Вот показатели предыдущих Intel SSD с выключенным кэшем массива:
5c4ff588ab6f1323400530.png
В ивентах сообщения:
Device naa.600605b0057d5c40ff0284b36d816610 performance has deteriorated. I/O latency increased from average value of 4580 microseconds to 210110 microseconds.

При этом, массив из HDD отрабатывает точно так, как должен (мелкий и большой файлы для отображения работы кэша рейда)5c4ff77731eb7360365769.png
На соседнем сервере такой же RAID, ESXi версии 6.5 в 2 SSD datacenter edition, что влиять не должно, но там выше 10мс вообще не прыгает latency.

upd. Скрин esxtop при копировании между датасторами (HDD->SSD). Latency 20-50ms колеблется
5c50058ccb603912731400.png
Как быть, куда посмотреть?
  • Вопрос задан
  • 1163 просмотра
Пригласить эксперта
Ответы на вопрос 2
Jump
@Jump
Системный администратор со стажем.
Ну это вполне нормальная ситуация.
Чего вы хотите от потребительского SSD в RAID?
Не удивлюсь если там еще и over provisioning не настроили.

Диски заняты менее, чем наполовину.
Шутите?
У вас RAID, а это значит, что TRIM не работает.
Вы файл удалили - а на диске он так и остался.
В итоге диск с неработающим TRIM всегда занят на 100%.
А вы говорите на половину.
Ответ написан
opium
@opium
Просто люблю качественно работать
Попробуйте софтовый рейд , оно намного веселее
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы