Почему периодически становится недоступным SSD M.2 в системе во время работы?
Раз в 1.5 недели информация на SSD M.2 Samsung 990 PRO with Heatsink 4TB становится недоступной, помогает только выключение сервера и последующее включение. Под стресс тестами диск нагревается до 55 градусов. В Samsung Magican версия прошивки последняя, в S.M.A.R.T состояние 100%, по атрибутам с ним всё хорошо. Диск стоит на линии CPU. Можно конечно предположить что технология, позволяющая забирать линии у x16 слота для ещё одного M.2 не совершенна, но насколько меня уверили она перекочевала из успешных серверных решений в десктоп. Проблема возникла на предыдущей материнской плате ASUS ROG STRIX Z790-E GAMING WIFI, со свежи BIOS, с выключенными политиками энергосбережения. Проблема сохранилась при переходе на новую материнскую плату.
В общем, почему диск так себя ведёт и что с этим делать ?
Конфигурация сервера:
MSI MPG Z790 CARBON MAX WIFI II (MS-7D89)
I5-13600K
SSD M.2 диски:
ADATA LEGEND 960 : 2048,4 GB
Samsung SSD 990 PRO with Heatsink 4TB
Samsung SSD 990 PRO 1TB : 1000,2 GB
ADATA LEGEND 960 : 2048,4 GB
Samsung SSD 990 PRO with Heatsink 2TB
Что я делал?
1. Менял материнскую плату
2. Менял блок питания
3. Пересобирал шкаф, проверяя заземление
Что я не делал?
1. Не обновлял BIOS
2. Не трогал настройки BIOS связанные с энергосбережением
3. Не перевёл SSD в режим Full Performance Mode в Samsung magican
Full Performance скорее маркетинг, чем полезная настройка) Просто все данные пишутся в ОЗУ, причём сразу много ГБ, на медленном sata ssd хотя бы заметно, а nvme и сам быстрый
А этот диск воткнут в разъем, который который сидит на PCIe4.0 или PCIe5.0? У меня ровно такой диск спустя какое-то время нормальной работы стал тормозить и отваливаться именно на разъеме с версией 4.0. Помогла замена на более простой и дешевый диск. А самсунговский теперь нормально работает на железе, где подключен по PCIe5.0.
Если валится только один этот диск и стоит он сразу в м.2 слоте на материнке - скорее всего диск бракованный, отвал контроллера памяти. Если есть какие-то переходники с pci-e на м.2, то может в этом проблема, быстрые диски их не не очень любят
Недавно всплывала информация про обновления на Windows 11 24H2 KB5063878 и KB5062660. (полагаю что и на сервер 2022 могло прийти подобное) Эти обновления вызывали произвольные отвалы дисков которые восстанавливались после полного цикла перезагрузки, как системных так и не системных. Изначально сказано было что проблема затрагивает SSD с контроллерами Phison, но потом выяснилось что и на другие контроллеры это тоже распространяется. Как временное решение предлагается удалить эти обновления и поставить обновления пока на паузу. Затем блогер Jayz2Cents который подсветил в медиа эту проблему решил обновить биос т.к. производитель не смог подтвердить проблему на такой же плате как у него с таким же ssd. Разница была только в обновлении биоса. После обновления проблема у него ушла. У него была платформа на амд. Могу сказать что я тоже встречал подобную проблему, но тогда не было этих обновлений биоса и обновлений винды. В сервере на плате Supermicro с 7950x из двух новых Adata 960 Max один стабильно отлетал по нагрузке. Заменил на Kioxia и все поехало дальше. С охлаждением все было в порядке, он ушел в гарантию и был выдан новый такой же. Сейчас недавно на другом компе на Server 2016 ушел в полную отключку один из трех Patriot Viper VP100. Там платформа на ам4, но винда стоит на стопе в обновлениях. Есть несколько подозрений что это может быть:
1. Т.к. обновление биоса помогло на платформе ам5, подозреваю что в биосе содержится исправление работы с SSD которое тихо выкатили все производители. И обновление винды просто начало триггерить этот баг который сам по себе должен был решиться с обновлением биоса.
2. Не ясно что тогда с платформой АМ4 и другими которые больше обновлений не получают.
Про интел пока выясняется, но полагаю обновить биос и откатить, остановить апдейты винды (если конечно винда) имеет смысл попробовать. Если у вас проблема ушла отпишитесь как решилось пожалуйста