如何快速發現伺服器故障 FDM系統來幫忙

2021-09-23 07:00:23 字數 2808 閱讀 3059

我最近一直忙著滿世界出差,特別是前幾天去德國法蘭克福參加isc超算行業盛會的時候,結識了不少國內外的超算**商。在當天晚飯閒聊的時候,大家很自然的就談到了不同品牌甚至不同國家對於計算設施,具體來說就是伺服器的設計理念。

不同品牌伺服器的差別究竟有多大?這個問題可謂是見仁見智。

從業的「新手」說:這東西設計不同、管理不同、這不同那不同,總之很不一樣;

從業的「老人」卻說:這東西沒啥區別,都是英特爾的平台,能有多大區別?

後來這個話題討論得還相當熱烈,不同陣營的人都在列舉各自的例子試圖說服對 方,一時間在熱鬧的德國飯館裡,我們這夥人的聒噪顯得與環境是那麼的融合。

後來,某位來自國字頭科研院所的領導一錘定音——不管什麼品牌的伺服器,只要達到一定規模,哪天還不壞個三颱五颱的?

於是大家都沉默了,轉而紛紛舉杯,沉浸在德國啤酒的苦澀與甘甜之中,就如伺服器運維者那樣,百感交集。

儘管在出廠時,各家伺服器都有著非常嚴苛的測試,許多品牌還進行了這樣或者那樣的便捷維護方案,但是在大規模部署的時候,或多或少都會遇到宕機的問題,這也讓資料中心的維護者每天疲於奔命。

所以,對於這些運維者來說,最重要的並非是採用哪家的伺服器,而是如何減輕運維的包袱。依靠增加人力並不是最好的手段,很顯然還需要從技術層面去解決。

這也正是華為伺服器一直所努力的方向。眾所周知,伺服器的硬體種類多、故障原因複雜,時不時的報警與宕機更是讓人摸不著頭腦。許多時候,當系統發生嚴重故障時,由於os不支援等原因沒有記錄下產生的mce碼,因此進行故障資訊收集、定位分析等問題就顯得愈加困難。

為此,華為推出了名為fdm的(fault diagnosis& management)故障診斷管理系統,就是針對這一類問題提供的解決方案。

帶外處理的os故障解決方案

一般來說,針對伺服器的應用問題,許多品牌早就有了明確的方案。一方面從硬體角度,伺服器會在前面板設定報警指示燈,通過指示燈的顏色變化與閃爍頻率可以簡單的判斷伺服器的基本狀態,是否有處理器、硬碟、網路等方面的問題;另一方面,通過伺服器的os或者bios系統,也可以簡單記錄伺服器的執行基本資訊,實現基礎的運維管理。

之所以稱之為「基礎」,是因為這些手段僅能夠支援小規模、常態化的情況。試想一下,當你步入乙個承載了千百臺伺服器的機房當中,你如何通過某台伺服器的指示燈閃爍或者報警聲音來判斷故障情況?甚至有可能,當你身處那個吵雜環境當中時,你根本不會關注到某台伺服器的細節,直到終端客戶打**來投訴。

相比系統報警來說,os資訊記錄或許是乙個比較好的方式,不過更多時候這個應用的效果表現在事後的複查當中,而且由於系統已經宕機,這時候資訊或報告等否被100%儲存下來並不確定。因此對於有效的運維來說,僅僅依靠這兩套方案是完全不夠的。

華為fdm的做法可能為業界提供乙個新的思路。按照fdm的計畫,除了行業通用的以os為中心的故障處理系統之外,華為的伺服器中還會新增一套帶外(不依賴於os)故障處理系統,解決現有os在嚴重故障系統宕機無法抓取故障資料的技術難題。

這樣一來,就能夠有效解決os故障的記錄問題,從而使得問題得以回溯,讓運維人員能夠察覺到真正的問題所在,並予以解決。

全bmc的監測機制

相比於os來說,如今許多伺服器都採用了bmc的管理方式。bmc是基板管理控制器的簡稱,它的主要作用就是實現本地和遠端診斷、控制台支援、配置管理、硬體管理和故障排除。

我記得那還是2023年的時候,當某廠商的售前為我演示bmc介面的作用時,我驚為天人。「還可以這樣玩」,這可能是我當時腦子裡跳出的第乙個想法。

後來,bmc介面成為了許多伺服器的標配,這也大大方便了管理員的日常工作。試想,在家裡躺在沙發上,報個筆記本,手指輕輕一點就能把在公司的某些伺服器開機或關機,那是多麼愜意的事情!

當然了,bmc的能量可不只是這麼一點點。在華為伺服器當中,bmc功能承擔了重要的角色,通過將故障資訊匯聚到bmc並由bmc在帶外做更進一步的故障分析、定位、預告警等,華為的伺服器可以克服os作為故障處理中心的能力不足、不可控、影響系統效能等難題,當運維真正實現便捷和智慧型化。

海量故障資訊看不懂怎麼辦?

就像文章最開始那位老領導提到的,在規模龐大的資料中心,每天的伺服器故障數量都是驚人的,這些資料經過日積月累,需要不斷分析與判斷,才能實現便捷的運維。

但是對於運維人員來說,面對這些資料顯然沒有足夠的時間一一分析,這也就需要從技術手段實現規模化、批量化的處理。相比人類,機器對於這樣重複性的篩選與排查工作顯然更適合,也更能夠高效的處理。

為此,基於華為對伺服器故障機制的技術積累,以及對海量故障樣本資料歸納總結的能力,華為伺服器提供了「故障診斷定位」與「故障預告警」兩大專家系統,提公升故障一次性、自動化診斷準確率。

舉個例子來說,當系統中的伺服器出現故障的時候,「故障診斷定位」可以在第一時間告訴管理員哪排機架中、哪台機櫃上的哪台伺服器的哪個部件出現了問題,大大縮短了定位的時間;而「故障預告警」甚至可以在此之間就根據伺服器的執行狀態,結合以往的故障情況提前進行警告,比如提醒管理員需要更換散熱風扇等等。

應該說,集合上述三項特色運維功能於一身的「fdm故障診斷管理系統」,可以幫助客戶更好的完成故障資訊(帶內/帶外)收集與解析、盡快的實現故障診斷定位、前瞻性的提供故障預告警,從而大大簡化運維步驟,解決時間與人力成本。

如今,華為的「fdm故障診斷管理系統」已經全面部署在某大型網際網路公司當中。在此之前,由於該公司某批次伺服器的pci故障原因遲遲無法定位,導致伺服器故障後無法部署業務,造成了大量的浪費。在應用華為「fdm故障診斷管理系統」之後,可以實現快速定位,並成功更換故障部件,幫助該公司快速恢復業務,緩解了應用危機。

伺服器硬體故障排查

電源故障現象 1 接電源線 電源燈不亮 2 電源指示燈報警 3 電源燈正常 按開機鍵無反應 排查方式 1 檢測電源線的接觸是否有鬆散 2 替換電源測試 3 供電環境檢測 是否存在電壓不穩定 4 檢視事件日誌 主機板故障現象 1 按開機鍵無效,黑屏 2 裝置啟動正常,接顯示器黑屏 3 裝置某些介面或者...

如何快速用金鑰登入伺服器

如何用金鑰快速安全登入伺服器,實現安全登陸伺服器,不直接用超級使用者root的身份直接登入,只要按照一下幾步操作即可實現。1.產生ssh2金鑰對,選擇rsa 1024加密 2.將金鑰上傳伺服器,並在伺服器匯入金鑰 mkdir root ssh chmod 700 root ssh 將字尾為pub金鑰...

華為伺服器故障燈不開機 華為伺服器

通過檢視串列埠輸出確認imana 200 ibmc系統是否反覆復位。當串列埠日誌反覆列印如下資訊,表示imana 200 ibmc系統反覆復位。jffs2 load complete 1107083 bytes loaded to 0x8b000000 booting kernel from leg...