@vlarkanov

Как узнать, какие модули памяти сбоят (в каких слотах материнской платы они находятся)?

Всем привет!
В syslog увидел множество сообщений об ошибках памяти вот такоего вида:

May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.270724] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.270726] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 5: cc1d730000010092
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.271141] EDAC sbridge MC0: TSC 0
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.271142] EDAC sbridge MC0: ADDR 7f80bf80
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.271143] EDAC sbridge MC0: MISC 4078f886
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.271145] EDAC sbridge MC0: PROCESSOR 0:206d7 TIME 1527478012 SOCKET 0 APIC 0
May 28 06:26:52 ru-tul-dc01-mon02 kernel: [317191.271425] EDAC MC0: 30156 CE memory read error on CPU_SrcID#0_Ha#0_Chan#2_DIMM#0 (channel:2 slot:0 page:0x7f80b offset:0xf80 grain:32 syndrome:0x0 - OVERFLOW area:DRAM err_code:0001:0092 socket:0 ha:0 channel_mask:4 rank:1)

May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270202] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270203] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 9: 8c000050000800c1
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270204] EDAC sbridge MC0: TSC 0
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270205] EDAC sbridge MC0: ADDR 794717000
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270206] EDAC sbridge MC0: MISC 90000000000208c
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270207] EDAC sbridge MC0: PROCESSOR 0:206d7 TIME 1527478004 SOCKET 0 APIC 0
May 28 06:26:44 ru-tul-dc01-mon02 kernel: [317183.270217] EDAC MC0: 1 CE memory scrubbing error on CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x794717 offset:0x0 grain:32 syndrome:0x0 - area:DRAM err_code:0008:00c1 socket:0 ha:0 channel_mask:1 rank:0)


Соответственно, проблема с модулями CPU0 channel:0 slot:0 и CPU0 channel:2 slot:0

Всего в системе установлено 6*8Gb модулей. На плате маркировки типа A1, А2 и т.д.
Как понять, какие именно модули нездоровы (т.е. в какие слоты платы они установлены)?

UPD: попробовал смотреть через dmidecode:

# dmidecode -t memory | grep 'Locator: P'
Locator: P1-DIMMA1
Bank Locator: P0_Node0_Channel0_Dimm0
Locator: P1-DIMMA2
Bank Locator: P0_Node0_Channel0_Dimm1
Locator: P1-DIMMA3
Bank Locator: P0_Node0_Channel0_Dimm2
Locator: P1-DIMMB1
Bank Locator: P0_Node0_Channel1_Dimm0
Locator: P1-DIMMB2
Bank Locator: P0_Node0_Channel1_Dimm1
Locator: P1-DIMMB3
Bank Locator: P0_Node0_Channel1_Dimm2
Locator: P1-DIMMC1
Bank Locator: P0_Node0_Channel2_Dimm0
Locator: P1-DIMMC2
Bank Locator: P0_Node0_Channel2_Dimm1
Locator: P1-DIMMC3
Bank Locator: P0_Node0_Channel2_Dimm2
Locator: P1-DIMMD1
Bank Locator: P0_Node0_Channel3_Dimm0
Locator: P1-DIMMD2
Bank Locator: P0_Node0_Channel3_Dimm1
Locator: P1-DIMMD3
Bank Locator: P0_Node0_Channel3_Dimm2
Locator: P2-DIMME1
Bank Locator: P1_Node1_Channel0_Dimm0
Locator: P2-DIMME2
Bank Locator: P1_Node1_Channel0_Dimm1
Locator: P2-DIMME3
Bank Locator: P1_Node1_Channel0_Dimm2
Locator: P2-DIMMF1
Bank Locator: P1_Node1_Channel1_Dimm0
Locator: P2-DIMMF2
Bank Locator: P1_Node1_Channel1_Dimm1
Locator: P2-DIMMF3
Bank Locator: P1_Node1_Channel1_Dimm2
Locator: P2-DIMMG1
Bank Locator: P1_Node1_Channel2_Dimm0
Locator: P2-DIMMG2
Bank Locator: P1_Node1_Channel2_Dimm1
Locator: P2-DIMMG3
Bank Locator: P1_Node1_Channel2_Dimm2
Locator: P2-DIMMH1
Bank Locator: P1_Node1_Channel3_Dimm0
Locator: P2-DIMMH2
Bank Locator: P1_Node1_Channel3_Dimm1
Locator: P2-DIMMH3
Bank Locator: P1_Node1_Channel3_Dimm2


Верно ли я думаю, что P0_Node0_Channel0_Dimm0 соответствует CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 channel:0 slot:0, а P0_Node0_Channel2_Dimm0 - CPU_SrcID#0_Ha#0_Chan#2_DIMM#0 (channel:2 slot:0? Тогда получается, что мне нужны DIMMA1 и DIMMC1.
  • Вопрос задан
  • 1112 просмотров
Пригласить эксперта
Ответы на вопрос 2
Melkij
@Melkij
PostgreSQL DBA
Раскурить спецификации на контроллер памяти и разводку материнской платы.
Если верить самоидентификации ядром - сбоят первые модули на 1 и 3 каналах первого сокета.
Ответ написан
@Andrey2508
Вытащить сначала один модуль памяти , как написал PrAw , запустить тест. Потом второй вытащить и провести тест , и т.д.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы