CityCat4
@CityCat4
У тролля даже мозги - и то каменные!

Kernel BUG — действительно ошибка ядра?

CentOS 6.8, множество пакетов пересобрано вручную. Ядро 2.6.32-642.1.1.el6.centos.plus.x86_64 #1 SMP Wed Jun 1 03:11:50 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux.
В последние две-три недели творится какой-то (другого слова не подобрать). Комп постоянно виснет - наглухо, в то время, когда не используется, иногда при этом возникает сообщение kernel BUG:
kernel: BUG: soft lockup - CPU#2 stuck for 67s! [thunderbird:6385]
kernel: Pid: 6385, comm: thunderbird Not tainted 2.6.32-642.1.1.el6.centos.plus.x86_64 #1 Gigabyte Technology Co., Ltd. H61M-D2-B3/H61M-D2-B3
Jul  7 20:30:18 sentry kernel: RIP: 0010:[<ffffffff812aea6d>]  [<ffffffff812aea6d>] copy_user_generic_strin
g+0x2d/0x40
Jul  7 20:30:18 sentry kernel: RSP: 0018:ffff88020e147c70  EFLAGS: 00010246
Jul  7 20:30:18 sentry kernel: RAX: ffff880000000000 RBX: ffff88020e147c78 RCX: 0000000000000200
Jul  7 20:30:18 sentry kernel: RDX: 0000000000000000 RSI: ffff8800c0184000 RDI: 00007faac39d8000
Jul  7 20:30:18 sentry kernel: RBP: ffffffff8100bc0e R08: 0000000000000003 R09: ffffea0002a054e8
Jul  7 20:30:18 sentry kernel: R10: ffff88020e147fd8 R11: 0000000000000293 R12: 0000000000001000
Jul  7 20:30:18 sentry kernel: R13: 0000000000001000 R14: 0000000000001000 R15: ffff88020e144000
Jul  7 20:30:18 sentry kernel: FS:  00007fab0235b720(0000) GS:ffff880028280000(0000) knlGS:0000000000000000
Jul  7 20:30:18 sentry kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jul  7 20:30:18 sentry kernel: CR2: ffff8800c0184000 CR3: 00000003c76c1000 CR4: 00000000000427e0
Jul  7 20:30:18 sentry kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Jul  7 20:30:18 sentry kernel: DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Jul  7 20:30:18 sentry kernel: Process thunderbird (pid: 6385, threadinfo ffff88020e144000, task ffff8801f0d1cab0)
Jul  7 20:30:18 sentry kernel: Stack:
Jul  7 20:30:18 sentry kernel: ffffffff81012c99 ffff88020e147cd8 ffffffff8112ddf3 ffff88020e147cd8
Jul  7 20:30:18 sentry kernel: <d> ffffffff811b9561 ffff8800c0184000 00001000070c7c94 00000000577e672c
Jul  7 20:30:18 sentry kernel: <d> ffffea0002a054e0 ffff880248a28dd8 0000000000000003 ffff88040799b280
Jul  7 20:30:18 sentry kernel: Call Trace:
Jul  7 20:30:18 sentry kernel: [<ffffffff81012c99>] ? copy_user_generic+0x9/0x10
Jul  7 20:30:18 sentry kernel: [<ffffffff8112ddf3>] ? file_read_actor+0x163/0x180
Jul  7 20:30:18 sentry kernel: [<ffffffff811b9561>] ? touch_atime+0x71/0x1a0
Jul  7 20:30:18 sentry kernel: [<ffffffff811301e6>] ? generic_file_aio_read+0x2d6/0x700
Jul  7 20:30:18 sentry kernel: [<ffffffff8119bf9a>] ? do_sync_read+0xfa/0x140
Jul  7 20:30:18 sentry kernel: [<ffffffff81160bf9>] ? mmap_region+0x269/0x5b0
Jul  7 20:30:18 sentry kernel: [<ffffffff810a6ac0>] ? autoremove_wake_function+0x0/0x40
Jul  7 20:30:18 sentry kernel: [<ffffffff811a1b94>] ? cp_new_stat+0xe4/0x100
Jul  7 20:30:18 sentry kernel: [<ffffffff8123d066>] ? security_file_permission+0x16/0x20
Jul  7 20:30:18 sentry kernel: [<ffffffff8119c895>] ? vfs_read+0xb5/0x1a0
Jul  7 20:30:18 sentry kernel: [<ffffffff8119d66f>] ? fget_light_pos+0x3f/0x50
Jul  7 20:30:18 sentry kernel: [<ffffffff8119cbe1>] ? sys_read+0x51/0xb0
Jul  7 20:30:18 sentry kernel: [<ffffffff810ee59e>] ? __audit_syscall_exit+0x25e/0x290
Jul  7 20:30:18 sentry kernel: [<ffffffff8100b0d2>] ? system_call_fastpath+0x16/0x1b
Jul  7 20:30:18 sentry kernel: Code: 74 30 83 fa 08 72 27 89 f9 83 e1 07 74 15 83 e9 08 f7 d9 29 ca 8a 06 88 07 48 ff c6 48 ff c7 ff c9 75 f2 89 d1 c1 e9 03 83 e2 07 <f3> 48 a5 89 d1 f3 a4 31 c0 c3 66 0f 1f 84 00 00 00 00 00 21 d2

Железо ни при чем - винты были переставлены в другой комп с такой же матерью, тот комп проверен - винда на нем работает как ни в чем ни бывало. Часть лога kernel можно посмотреть здесь - Часть лога.
На прошлой неделе висло постоянно - после отключения в BIOS всех найденных C-state, отключения EIST, переключения с S3 на S1, обновления самого BIOS (не знаю что повлияло) - вроде как перестало виснуть и я уже вздохнул с облегчением.
Вчера опять kernel BUG, сегодня утром прихожу - опять висим. Есть еще подозрение на винт, потому что SMART показывает следующее:
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   117   099   006    -    125207024
  3 Spin_Up_Time            PO----   097   097   000    -    0
  4 Start_Stop_Count        -O--CK   097   097   020    -    3781
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR--   083   060   030    -    214199643
  9 Power_On_Hours          -O--CK   067   067   000    -    29037
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   099   099   020    -    1763
183 Runtime_Bad_Block       -O--CK   001   001   000    -    233
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   092   000    -    4295032993
189 High_Fly_Writes         -O-RCK   096   096   000    -    4
190 Airflow_Temperature_Cel -O---K   058   050   045    -    42 (Min/Max 36/42)
194 Temperature_Celsius     -O---K   042   050   000    -    42 (0 18 0 0 0)
195 Hardware_ECC_Recovered  -O-RC-   051   036   000    -    125207024
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
240 Head_Flying_Hours       ------   100   253   000    -    109547435883024
241 Total_LBAs_Written      ------   100   253   000    -    3475782009
242 Total_LBAs_Read         ------   100   253   000    -    4167494488


И собственно вопрос - этот kernel BUG - на самом деле кернел баг или же можно что-то сделать, например винт заменить?
  • Вопрос задан
  • 814 просмотров
Пригласить эксперта
Ответы на вопрос 3
gbg
@gbg
Баянист. Тамада. Услуги.
Прекратите плясать с бубном и обновитесь уже наконец.
Ответ написан
Frankenstine
@Frankenstine
Сисадмин
Если раньше на этом же софте всё работало не в пример стабильнее - скорее всего у вас проблемы аппаратного плана, типа высохших электролитов на материнке или в блоке питания. Проверьте состояние конденсаторов и напряжения на шинах БП под нагрузкой.
Ответ написан
leahch
@leahch Куратор тега Linux
Я мастер на все руки, я козлик Элек Мэк :-)
Ответ не актуален!
Имел ввиду интерфейс thunderbolt
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы