gpu顯示off GPU常見故障及排查方法

2021-10-16 13:33:48 字數 780 閱讀 2394

gpu常見故障及排查方法

1. gpu日誌收集

安裝gpu驅動的系統下,root使用者任意目錄下執行命令:nvidia-bug-report.sh

執行命令後,當前目錄下會生成日誌壓縮包:nvidia-bug-report.log.gz

2. 系統狀態檢測

對於gpu伺服器建議客戶維持較新的gpu驅動版本、禁用nouveau模組、開啟gpu驅動記憶體常駐模式並配置開機自啟動。

對於gpu伺服器,建議進行以下配置:

維持較新的、正確的gpu驅動版本

禁用nouveau模組

開啟gpu驅動記憶體常駐模式並配置開機自啟動

gpu故障後,建議使用ipmitool power reset命令對伺服器進行冷重啟後觀察故障是否消失或重現

2.1 檢查gpu驅動

選擇正確的gpu型號

對於64位linux建議直接選擇linux 64-bit

選擇nvidia「推薦/認證」的驅動

2.2 禁用nouveau 模組

nouveau是nvidia顯示卡的開源驅動程式,會與nvidia官方gpu驅動發生衝突,需要在系統下禁用nouveau模組。

# 以下命令沒有任何輸出表示nouveau模組已經禁用

[root@zj ~]# lsmod | grep -i nouveau

# 以下輸出表示nouveau模組沒有禁用

[root@zj ~]# lsmod | grep -i nouveau

nouveau 1662531 0

mxm_wmi 13021

CPU常見故障

cpu是電腦中重要配件,是一台電腦的心臟。同時它也是整合度很高的配件,可靠性較高,正常使用時故障率並不高。但是倘若安裝或使用不當則可能帶來很多意想不到的麻煩。與cpu有關的故障是比較判斷的,cpu出現問題時,一般情況下是無法開機 xp系統之家官網 系統沒有任何反應,即按下電源開關,機箱喇叭無任何鳴叫...

常見故障處理

硬碟 故障現象一 開機後螢幕顯示 device error 或者顯示 non system disk or disk error,replace and strike any key when ready 說明硬碟不能啟動,用軟盤啟動後,在a 後鍵入c 螢幕顯示 invalid drive spec...

Openstack neutron 常見故障分析

1.節點down了,如圖1 12所示 圖1 12 剛剛部署完了,一看上去全部是down掉了,down掉了怎麼辦?我要查整個部署。一查沒有部署這個沒有部署那個,這時日誌很關鍵。所以在部署的時候要統一日誌收集,你在上面就可以看到各種日誌。看rabbitmq,檔案控制代碼太少了,或者是硬碟太小了,都會影響...