Почему ESXi 6.7 теряет datastore?

На персоналке "в углу" подняли ESXi 6.7 для некритичных мелких виртуалок.
Два диска - 500G NVMe на материнской плате и перекинутый позже с другого хоста (v7.2) 2TB SATA

На второй день в виртуалках возникла ошибка I/O, потерялись датасторы. После перезагрузки все восстановилось.
Через неделю ошибка повторилась с одним из них.

Проявление: через UI обращение к основному датастору - "An error occurred, please try again"

632978aa3d8b3907481378.jpeg

Через ssh он пуст:

[root@localhost:~] ls -l /vmfs/volumes/datastore1/
total 0


При этом второй датастор штатно виден и через UI и ssh.

Ошибка выдается и в ссылке проблемного датастора "datastore1 -> 6320b078-c3a78db5-40c1-9c7bef48a9d7":

[root@localhost:/vmfs/volumes] ls -l
ls: ./75cea470-0bfaef91-ecc6-d2e1568e2a47: No such device
ls: ./6320b072-70d48fcd-3ca9-9c7bef48a9d7: No such device
ls: ./b51abd7a-082fa73b-ae5a-6f3927dcb57c: No such device
total 2304
drwxr-xr-t    1 root     root         77824 Sep 19 12:40 61129172-d1eab270-9f88-1c697a0e9500
drwxr-xr-t    1 root     root         77824 Sep 20 01:12 6320b078-c3a78db5-40c1-9c7bef48a9d7
drwxr-xr-x    1 root     root             8 Jan  1  1970 6320b078-dec40cae-2d62-9c7bef48a9d7
lrwxr-xr-x    1 root     root            35 Sep 20 11:35 DS2 -> 61129172-d1eab270-9f88-1c697a0e9500
lrwxr-xr-x    1 root     root            35 Sep 20 11:35 datastore1 -> 6320b078-c3a78db5-40c1-9c7bef48a9d7


После перезагрузки доступность восстанавливается.

Физически убрал добавленный второй диск - примерно месяц система работала без сбоев.
Места стало не хватать, добавил пустой новый 1Т диск.

И снова стала возникать проблема с основным, пустой добавленный остается доступен.
Снова решается примерно на неделю (+/-) перезагрузкой.

Журналы становятся доступны только после перезагрузки - поэтому в них особо ничего не могу найти.
Что-то осмысленное есть в vmkwarning.log

По последнему сбою - предшествует в 10:52 Device ... performance has deteriorated , а потом только следы перезагрузки в 12:54:

2023-02-23T05:19:02.327Z cpu2:2097580)WARNING: ScsiDeviceIO: 1578: Device t10.NVMe____SAMSUNG_MZVLQ512HALU2D000H1______________C9E6B401A1382500 performance has deteriorated. I/O latency increased from average value of 224 microseconds to
2023-02-23T05:19:02.327Z cpu2:2097580)WARNING: 4888 microseconds.
2023-02-23T10:52:37.228Z cpu5:2097580)WARNING: ScsiDeviceIO: 1578: Device t10.NVMe____SAMSUNG_MZVLQ512HALU2D000H1______________C9E6B401A1382500 performance has deteriorated. I/O latency increased from average value of 224 microseconds to
2023-02-23T10:52:37.228Z cpu5:2097580)WARNING: 4875 microseconds.
2023-02-23T10:52:40.342Z cpu1:2097580)WARNING: ScsiDeviceIO: 1578: Device t10.NVMe____SAMSUNG_MZVLQ512HALU2D000H1______________C9E6B401A1382500 performance has deteriorated. I/O latency increased from average value of 229 microseconds to
2023-02-23T10:52:40.342Z cpu1:2097580)WARNING: 10724 microseconds.
0:00:00:00.000 cpu0:1)WARNING: Serial: 787: Serial port com1 failed during initialization: Failure
0:00:00:00.000 cpu0:1)WARNING: Serial: 787: Serial port com2 failed during initialization: Failure
0:00:00:04.373 cpu0:2097152)WARNING: VMKAcpi: 318: \_SB_.PCI0.LPCB.TIMR: skipping GSIV 0 conflict
0:00:00:04.377 cpu0:2097152)WARNING: VMKAcpi: 307: \_SB_.PCI0.GPI0: skipping IRQ 14 conflict
2023-02-23T12:53:58.115Z cpu4:2097581)WARNING: Keyboard: 777: Ignoring registration attempt: External USB driver already registered.
2023-02-23T12:53:58.115Z cpu4:2097581)WARNING: VMKAPICore: 2472: Failed to register external keyboard driver, type: 1
2023-02-23T12:53:58.219Z cpu5:2097603)WARNING: etherswitch: PortCfg_ModInit:910: Skipped initializing etherswitch portcfg for VSS to use cswitch and portcfg module
2023-02-23T12:53:58.414Z cpu4:2097621)WARNING: Mod: 2424: function <T.1117> contains unknown suffix
2023-02-23T12:53:58.414Z cpu4:2097621)WARNING: Mod: 2424: function <T.1118> contains unknown suffix
2023-02-23T12:53:58.414Z cpu4:2097621)WARNING: Mod: 2424: function <T.1119> contains unknown suffix
2023-02-23T12:53:58.414Z cpu4:2097621)WARNING: Mod: 2424: function <T.1120> contains unknown suffix
2023-02-23T12:53:58.414Z cpu4:2097621)WARNING: Mod: 2424: function <T.1121> contains unknown suffix
2023-02-23T12:54:00.329Z cpu1:2097736)WARNING: Tcpip: 1309: failed to unset gateway (error = 0x31)
2023-02-23T12:54:09.036Z cpu5:2097500)WARNING: NFS: 1226: Invalid volume UUID 6320b078-b981618a-6fc9-9c7bef48a9d7
2023-02-23T12:54:09.065Z cpu5:2097500)WARNING: NFS: 1226: Invalid volume UUID 63aec0ce-63753aef-5fec-9c7bef48a9d7
2023-02-23T12:54:09.867Z cpu5:2098069)WARNING: APEI: 290: Could not initialize HEST
2023-02-23T12:54:09.867Z cpu5:2098069)WARNING: APEI: 319: Could not initialize EINJ


Могут как-то мешать дополнительные диски?
  • Вопрос задан
  • 810 просмотров
Пригласить эксперта
Ответы на вопрос 1
amk4
@amk4 Автор вопроса
```
WARNING: ScsiDeviceIO: 1578: Device t10.NVMe____SAMSUNG_MZVLQ512HALU2D000H1______________C9E6B401A1382500 performance has deteriorated. I/O latency increased from average value of 229 microseconds to 10724 microseconds.
```

Т.к. ошибкам всегда предшествовал варнинг о высокой нагрузке диска, думаю, ошибка в этом - каким-то образом виртуалки "перенагружали" диск.
В целом, проблема ушла, когда на тестовым виртуалках была добавлена память и они значительно снизили свою дисковую активность в пиках нагрузки.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы