記一次硬體故障,並普及點硬體知識

2022-04-06 07:32:39 字數 2474 閱讀 4080

既當故事,也做見識~

事情是這樣的,星期四的時候需要用工作站gpu進行ai模型訓練,所以把gpu主機板驅動公升級了一下,然後就執行了1天,晚上的時候暫停任務,心想著讓工作站休息一晚,明天繼續吧(那gpu運轉和產熱真是誇張啊,現在知道為什麼gpu都有兩個風扇了)

第二天把工作站重新開機,發現遠端連線不了了,這就坑了

於是先ping了一下,發下不通,然後登陸路由檢視了一下,沒發現工作站,那肯定是開不了機了

接著找了個顯示器連線到了工作站上,發現開機沒反應,顯示器一點變化都沒有

這時候學生時代兩層機房的管理經驗就用上了,把工作站拆了

發現gpu落灰挺嚴重的,估計是大量運算捲起的灰塵,加之工作站剛安裝的時候顯示卡也出現過一次接觸不良的情況,遂拆了重新裝

先擰開螺絲(供電的線如果阻礙可以先拔了,如果不影響就不管)

按一下卡扣,手握兩頭就可以輕鬆拔下(別用蠻力,顯示卡將近3k,主機板將近4k)

我是確保這個卡槽沒問題的,要是你不確定可以安裝了另乙個卡槽上,工作站基本上都是多個顯示卡槽

發現開機黑屏了(這個有個技巧,關下顯示器再開,如果螢幕亮畫面黑,就是黑屏)

ps:其實開機黑屏,插拔記憶體就可以解決80%的情況

那就插拔記憶體試試,我這邊4個卡槽,先拔下記憶體條插下記憶體條金手指

發現還是不行,開機繼續黑屏

那就得排出是否是某記憶體條燒壞了,於是單個插入來試

單插外部的沒事,可以開機,單插內部位置的記憶體不行

於是得進一步排出,是卡槽出問題了,還是記憶體出問題

外部記憶體插入裡面卡槽也開不了機,裡面位置的記憶體插入外部可以開機

那麼就可以判斷裡面卡槽出問題了,至於是落灰還是其他問題有待排查,先繼續說

把內部記憶體換個卡槽就可以了

ps:推薦記憶體是乙個牌子的,比如都是金士頓,有時候不太牌子的記憶體容易有其他問題,以前踩過坑

然後就可以了~

順便普及乙個硬碟的知識點,以某老電腦為例:

這個是連線線,通過這個電腦就可以訪問到硬碟

ps:為電腦或者伺服器新增硬碟的時候,這個先也要買一下,而且得看一下主機板上還有沒有介面

這個是電源給硬碟供電用的線

看張詳細圖

先申明,不推廣,不發鏈

之前朋友想買2t的wd硬碟,500左右,問我有沒有價效比高的推薦

我說3t硬碟500左右,自己買個硬碟盒就可以用了,而且不容易壞,考慮不

ps:經常使用的情況下:行動硬碟一般2年左右的壽命,硬碟5年左右

最終效果

缺點:需要額外供電,體積比行動硬碟大點(如果想小點可以使用筆記本的硬碟)

ps:硬碟是3.5英吋的,筆記本硬碟是2.5英吋的,買硬碟盒需要注意一下,搞不清楚就買通用的

當然了,nas也可以自己改裝,多盤支援的容器+lot+raid 0就可以搞定了,以後有機會繼續說

一次硬體故障處理後的總結

背景 主庫切換到備庫機房後,資料讀寫和業務處理都比主庫機房慢很多,結合之前幾個月備庫機房的這6臺主機經常出現重啟現象,因此懷疑是硬體問題 過程 忽略,總之是測試過很多次,測試過光交,換過模組,修改過多路徑配置等等,最後是替換了乙個光交,問題解決 總結 1.一定是要做好分析,列出所有可能存在的故障點,...

記一次manila故障

排查過程 1.檢視manila的日誌,api.log scheduler.log share.log,排程日誌最具參考性,但是顯示建立成功 實際狀態為creating 排到share時出現大量報錯 get all share usage failed 2.檢查後端儲存,節點均正常 排查過程 1.關閉...

記週日一次故障意外

記週日一次故障意外 找了waf工程師問,並且我這裡也在同步測試,tcping 網域名稱沒返回,不得不 ctrl c 中斷退出 說解析異常,222這個位址不通,然後給我們明確回覆說 47.91.170.222不是waf的入口 ip,切別的ip是沒用的 因為解析異常之後,我是有叫他切到別的能用的waf ...