Привет всем. Помогите диагностировать проблему, пожалуйста.
MacPro3.1 2008 года, High Sierra (dosdude1) + Win10 (Bootcamp), GTX285 (была GTX680).
Проблема: около года назад появились сложности при "холодном" (например, утром) запуске. Варианты сложностей такие:
- черный экран, секунд через 10-20 после включения до воя раскручивается кулер видюхи;
- система начинает загружаться, но в произвольный момент падает в чёрный экран, до воя раскручивается кулер видюхи;
- система загружается, но в произвольный момент падает в чёрный экран, до воя раскручивается кулер видюхи.
Иногда на мамке загорается диагностический led "ERRA".
В среднем, комп удаётся завести со 2-3 раза, но иногда и сразу. Если система завелась и не упала в первые 5-10 минут, дальше всё работает без сбоев.
Недавно видюха (GTX680) перестала определяться в Диспетчере устройств (Win10), одновременно с этим обе системы перестали загружаться: в процессе старта OSX просто висла, Win10 постоянно перезагружалась, Ubuntu с флэшки висла после выбора
Try or Install Ubuntu или
Safe graphics. Однако в безопасном режиме (Win10) заводилась. Поставил еще более старую GTX285 - вернулся на шаг назад: заводится, но с бубном.
Что узнал в интернете:
Проблема не уникальная, на форумах маководов подобные темы встречаются. Не то, чтоб часто, но есть. Однако, уверенного указания на причины не нашёл. Рекомендуют последовательно сбросить NVRAM/поменять батарейку BIOS/переустановить систему, затем поменять видюху/БП/мать/весь компьютер. Встретил историю про прогрев феном перед запуском - насколько понял, это возвращает к жизни высохшие кондеи. Еще упоминали микротрещину на мамке.
Что узнал из логов:
В Win10 ничего конкретного (смотрел в "Просмотре событий" - там общие слова:
"Система перезагрузилась, завершив работу с ошибками. Возможные причины ошибки: система перестала отвечать на запросы, произошел критический сбой или неожиданно отключилось питание." (Источник: Kernel-Power) и
"Предыдущее завершение работы системы в ЧЧ:ММ:СС на ДД.ММ.ГГГГ было неожиданным." (Источник: EventLog)).
В OSX интереснее - в
"Консоль - /Library/Logs/DiagnosticReports" обнаружились записи вида
"Kernel_дата_имя_компьютера.gpuRestart" с таким содержимым:
NVDA(DMA): Channel exception! Exception type = 0x20 DMA Engine Error (PBDMA Error)
А с момента, когда с GTX680 всё перестало загружаться -
NVDA(DMA): Channel timeout!
По одной из ошибок нагуглися комментарий:
XID 32: PBDMA Error
This event is logged when a fault is reported by the DMA controller which manages the communication stream between the NVIDIA driver and the GPU over the PCI-E bus. These failures primarily involve quality issues on PCI, and are generally not caused by user application actions.
Там же (
/Library/Logs/DiagnosticReports) нашлись записи вида
"Kernel_дата_имя_компьютера.panic" с упоминанием в Backtrace компонента
com.nvidia.web.NVDAResmanWeb.
Где-то там же нашлось (уже потерялось) событие с такими строками:
0xffffffa3cbde38a0 : 0xffffff7fa2b7a0a5 com.nvidia.web.NVDAResmanWeb : __gpuCheckAndLogReadFailure + 0xdc6
0xffffffa3cbde38e0 : 0xffffff7fa2a42975 com.nvidia.web.NVDAResmanWeb : _gpumgrSetBcEnabledStatus + 0x61b
0xffffffa3cbde3900 : 0xffffff7fa2a89b59 com.nvidia.web.NVDAResmanWeb : _osHandleGpuLost + 0xdbe
0xffffffa3cbde3920 : 0xffffff7fa2a8a2a0 com.nvidia.web.NVDAResmanWeb : _osHandleGpuLost + 0x1505
0xffffffa3cbde39e0 : 0xffffff7fa2a8a3f8 com.nvidia.web.NVDAResmanWeb : _osHandleGpuLost + 0x165d
com.apple.AppleGPUWrangler 3.20.18
Что попробовал:
-заменил батарейку BIOS;
-переставил видюху в соседний слот;
-вытащил/почистил, что смог;
-поверхностно осмотрел мать и блок питания (снимал, разбирал) на предмет вздувшихся кондеев - ничего не обнаружил. Что, конечно, не означает, что кондеи не высохли;
-померил напряжение на 6-pin доппитании видюхи - везде получил +12,22V;
-нагрузил GTX285 бенчмарком в надежде, что, если дело в севшем БП, то тут-то всё и упадёт, но не упало. Что, опять же, не означает исправность БП;
-проверил GTX680 на другом PC - точно также не завелась, как положено, но завелась без драйверов.
На основе вышеописанного я делаю такое предположение: мать приходит в негодность и по пути утащила за собой видюху. DMA контроллер, насколько я знаю, расположен на мамке.
Собственно, вопрос: прав ли я в своём предположении, как это можно ещё проверить, какие ещё варианты могут быть, и может ли быть так, что видюха не умерла аппаратно, а, скажем, накопила в прошивке какие-то ошибки, которые можно полечить перепрошивкой?
Спасибо!