metallix
@metallix
Backend - developer

В чем причина постоянно умирающего SSD?

Приветствую!
Имеется машина -
Проц - Intel® Core™ i7-3770 Processor (8 MB Cache, 3.40 GHz)
Мать - Dell Optiplex 9010 0KV62T LGA 1155
RAM - Samsung DDR3 M378B5273DH0-CH9 x4
SSD - Kingston SSD SATA 2.5" 480GB TLC SA400S37/ 480GB
---
Спустя пару месяцев после первой установки ОСи (Ubuntu 18.04), начались короткие фризы системы. С ходом времени они стали чаще и прололжительней. В итоге всё закончилось ошибками типа - Read-Only file system. Как временное рещение помогала команда `fsck` + ребут системы, чуть позже можно было не загрузиться из-за того что grub не рабочий. В итоге решил не мучаться, и купить новый ссд. (UPD: Второй диск, точно такой же)
С новым ссд проблема начала повторяться опять спустя пару месяцев. Переустановки ОСи в обеих случаях помогала на 3-4 недели, и опять всё по новой. В чем проблема то может быть? Перелопатил кучу форумов, и вариантов решений. Всё бестолку. Может ли быть причина не в ссд, а в каком-то другом компоненте?
Ниже приложу результаты нескольких комманд
-----
fdisk -l

Disk /dev/sda: 447,1 GiB, 480103981056 bytes, 937703088 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0xcf2bfa08

Device Boot Start End Sectors Size Id Type
/dev/sda1 * 2048 1050623 1048576 512M ef EFI (FAT-12/16/32)
/dev/sda2 1052670 937701375 936648706 446,6G 5 Extended
/dev/sda5 1052672 937701375 936648704 446,6G 83 Linux

smartctl -i /dev/sda5

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.0.0-29-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SA400S37480G
Serial Number: 50026B76826371CA
LU WWN Device Id: 5 0026b7 6826371ca
Firmware Version: SBFKB1C2
User Capacity: 480 103 981 056 bytes [480 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 4
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Sep 26 14:28:58 2019 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

smartctl -t short -a /dev/sda5

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.0.0-29-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SA400S37480G
Serial Number: 50026B76826371CA
LU WWN Device Id: 5 0026b7 6826371ca
Firmware Version: SBFKB1C2
User Capacity: 480 103 981 056 bytes [480 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 4
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Sep 26 14:30:06 2019 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (65535) seconds.
Offline data collection
capabilities: (0x11) SMART execute Offline immediate.
No Auto Offline data collection support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 30) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 000 100 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 2537
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 237
148 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
149 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
167 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
169 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 13
170 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 9
172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 3407935
181 Program_Fail_Cnt_Total 0x0032 100 100 000 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0000 100 100 000 Old_age Offline - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 55
194 Temperature_Celsius 0x0022 075 062 000 Old_age Always - 25 (Min/Max 17/38)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0
218 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
231 Temperature_Celsius 0x0000 006 006 000 Old_age Offline - 94
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 13037
241 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 2911
242 Total_LBAs_Read 0x0032 100 100 000 Old_age Always - 1702
244 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 52
245 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 63
246 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 821280
246 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 821280

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2174 -
# 2 Short offline Completed without error 00% 1575 -
# 3 Short offline Completed without error 00% 581 -
# 4 Short offline Aborted by host 00% 581 -
# 5 Extended offline Completed without error 00% 385 -
# 6 Short offline Completed without error 00% 102 -

Selective Self-tests/Logging not supported

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Thu Sep 26 14:32:06 2019
  • Вопрос задан
  • 2694 просмотра
Пригласить эксперта
Ответы на вопрос 9
@RickNRoll
В первую очередь нужно посмотреть на БП, так как если там присутствует какое-либо не соответствие по напряжению (либо сильные отклонения при нагрузке), то это напрямую может влиять на сам контроллер и продолжительность его работы. Обычно при работе жёстких дисков и SSD допустима норма отклонения в 5%, но иногда, в зависимости от БП, эти отклонения могут быть и больше (ввиду просадок или скачков напряжения).
В сети много статей на тему «допустимые отклонения по напряжению при работе жёсткого диска» (что также подходит и для SSD). Возможно стоит идти в данном направлении.
Ответ написан
Комментировать
SignFinder
@SignFinder
Wintel\Unix Engineer\DevOps
1. SMART с диска нужно смотреть.
2. Какая файловая система стоит, поддерживаем ли она TRIM.
3. Как обстоят дела с журналом в файловой системе - он увеличивает нагрузку на SSD.
Ответ написан
semenenko88
@semenenko88
Системный администратор
Проверьте еще что в биосе включен режим ahci для sata.

Скорее всего у вас ext4, она TRIM поддерживает. А поддерживает ли диск можно узнать примерно так:
sudo hdparm -I /dev/sda | grep "TRIM"

Ну и если диск и файловая система поддерживают TRIM то можно включить в /etc/fstab опцию discard:
UUID=69006d4f-bdd7-4fb8-a4ff-fe3adbcc5c73 /  ext4    discard,errors=remount-ro 0       1


Возможно плохой кабель sata, а возможно гнездо sata на мат. плате. Возможно проблемы в блоке питания.
Ответ написан
Комментировать
@d22b
Можно ещё попробовать запустить `iostat 60` в терминале чтобы посмотреть, может там действительно большое количество записи в простое или от какого-то приложения. В S.M.A.R.T. непонятно со счётчиком записанного, если только Total_LBAs_Written в Гб (тогда получается 2911 против 1702 прочитанного).

Ещё где-то видел совет оставлять на SSD неразмеченное пространство не относящееся ни к какому разделу. Всегда так делаю и пока всё живо при сравнимом износе.
Ответ написан
Комментировать
grabbee
@grabbee
У меня проблема с матерью была. Поменяли целиком по гарантии. Очень похоже было, но он подвисал ещё во время старта железа на 1 минуту где-то и при выключении мог не выключиться(рандомно). Точно также и ридонли и груб не появлялся и систему не видел и фризы и переустанавливал. Сразу на диск подумал, но в сервисе сказали с диском всё ок. Я с ним сейчас уже больше года всё норм.
Ответ написан
msHack
@msHack
Бп проверьте
Ответ написан
Комментировать
YMax
@YMax
Системный администратор
Похожая ситуация под Windows 10 - SSD SanDisk начал отваливаться при старте системы. Обновление BIOS, замена БП не помогает, подозреваю, что дело в диске. Вообще - десктопные SSD в плане живучести могут преподносить сюрпризы - не так давно два SSD AData перестали определяться где бы то ни было без всяких предупреждений - просто пропали из системы и всё.
Ответ написан
Комментировать
ShturmN
@ShturmN
инженер
На убунтах был баг в пакете laptop-mode-tools. Он сильно часто тушил диск при простое. В итоге выходил из строя по параметру пуск/стоп хдд. И я не помню чтоб его фиксили. Решался он внятной настройкой конфига.
Ответ написан
Комментировать
adugin
@adugin
Покажите результат команды:
$ sudo free -h
Проблема может быть в размере swap-файла. У меня на ноуте с 8 Гб оперативки Ubuntu 18.04 при установке автоматически выставила его в размер 2 Гб, и я наблюдал регулярные фризы до 5 минут. После увеличения размера файла подкачки до 16 Гб всё стало работать нормально. Мануал тут.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы