現代資料中心伺服器維護檢查清單

2021-09-23 01:13:57 字數 2964 閱讀 6075

企業資料中心定期計畫性的進行伺服器維護可以防止發生大的問題,並保持一切正常執行。因此,資料中心管理人員們務必要為伺服器的硬體和軟體執行簡單的檢查騰出時間。

資料中心的伺服器只是複雜一些的機器。與任何其他機器一樣,這些服務區也同樣需要定期性的維護,以便達到最佳效能。而通過簡單的維護程式則可減少發生嚴重故障的可能性,進而延長伺服器的使用壽命。

即使具備現代伺服器的效能和冗餘功能特徵,增加的工作負載整合和可靠性預期也可能對您的企業的業務造成損失。故而您資料中心的伺服器維護清單應涵蓋相關的物理元素以及系統的關鍵配置。

堅持常規性例程

伺服器管理員們經常忽視計畫性維護視窗。不要等到實際發生故障執行失敗時才來進行維護;請務必預留出足夠的時間用於日常的伺服器預防性維護。

維護的頻率通常取決於裝置的使用時長、資料中心的環境、所需要維護的伺服器的數量等因素。例如,位於裝置機櫃中的舊裝置較之被部署在一款hepa過濾的,冷卻良好的資料中心中的新的伺服器就需要更頻繁的檢查。企業組織可以根據**商或第三方提供商的例程實施日常維護計畫;如果**商的服務合同每四到六個月要求進行系統檢查,則按照該日程進行安排。

準備好一切

同樣,有必要針對系統離線及其在稍後返回服務制定一套明確的計畫。在虛擬化出現之前,伺服器及其之上的應用程式將需要停機以適應維護視窗——這通常會迫使it人員需要在夜間或週末進行維護。虛擬化伺服器支援工作負載的遷移,而沒有停機時間,因此您企業資料中心可以將應用程式遷移到其他伺服器,並且任何時候當底層主機系統在發生伺服器維護時,它們都將保持可用狀態。在執行維護服務之前,請務必清楚的知道虛擬機器應該遷移到**,將虛擬機器遷移到選定的系統,並確保每項工作負載正在執行,然後再將伺服器關閉進行維護。

此時,通常可以關閉伺服器,並將其從機架或其他機箱中刪除卸下。

確保伺服器可以「呼吸」

一旦伺服器離線,可以直觀地檢查其外部和內部的氣流路徑。清除可能會阻礙冷卻空氣流通的任何積聚的灰塵和其他碎屑雜物。

從外部空氣的入口和出口開始,然後深入系統機箱,檢視cpu散熱器和風扇元件,記憶體模組和所有冷卻散熱風扇葉片和風道通道。用乾淨、且乾燥的壓縮空氣適當清除靜電安全工作區上的灰塵或碎屑。不要在機架上清潔伺服器。

除塵是一種老式的清潔過程,但這並不意味著其已經過時了。除塵器是一種絕熱材料,這使得這一過程更為重要,鑑於替代冷卻方案和ashrae建議資料中心適當提公升資料中心的操作環境溫度。灰塵和其他氣流障礙物將導致伺服器會消耗更多的能量,甚至會引起原來可避免的過早的元件故障。

檢查本地硬碟

許多伺服器依靠內部硬碟進行引導、工作負載啟動和儲存,使用者資料和其他功能。磁碟介質問題嚴重損害了工作負載的效能和穩定性,往往導致磁碟過早出現故障失效。

磁介質是不完美的;常見的問題包括壞扇區和碎片。在保持資料完整性方面,raid有了很大的進步,但是較小的1u機架式伺服器不能提供足夠的物理空間來部署磁碟陣列。使用諸如chkdsk(檢查磁碟)等實用程式等工具來驗證磁碟的完整性,並嘗試恢復其上的任何壞扇區。 windows server 2012的更新版本的chkdsk可以快速分析和修復檔案系統結構中的磁碟問題。

磁碟碎片不會消失,只要具備ntfs和檔案分配表或fat,檔案系統使用磁碟空間首先可用的集群。碎片可能會降低減緩伺服器的磁碟的執行,並導致故障。windows server 2012下的optimize-volume等實用程式會將每個檔案的集群連續排列在磁碟上。

閱讀事件日誌的附屬細則

伺服器在事件日誌中記錄了大量資訊,特別是有關問題的詳細資訊。如若沒有仔細檢查系統、惡意軟體和其他事件日誌,那麼,伺服器維護檢查清單便是不完整的。當然,關鍵系統問題應該會第一時間引發it管理員和技術人員的關注,但從無數的小事件的積累中可能會發現長期而嚴重的問題。

積極主動的跟蹤日誌資料。當通過對日誌的檢查發現長期或經常性的問題時,積極的調查可以在問題公升級之前解決問題。例如,如果伺服器的日誌報告記憶體模組中存在可恢復的錯誤,其將不會觸發關鍵警報。但是,重複的例項會顯示模組出現問題,it人員可以執行更詳細的診斷來識別即將發生的故障。

為打補丁和更新騰出時間

伺服器的軟體堆疊——bios,作業系統,虛擬機器管理程式,驅動程式,應用程式,支援工具——都必須進行互動和協同工作。不幸的是,軟體**很少是完美無缺的或無問題的,所以這些軟體經常需要被修補或更新,以修復錯誤,提高安全性,簡化互操作性和提高效能。

沒有任何一款生產軟體能夠自動更新。管理員應首先確定是否需要打補丁或更新公升級,然後再進行徹底的評估和更改測試。如果更新解決的是您的伺服器原本沒有的問題,那麼為什麼要冒著創造出其他問題的風險呢?

軟體開發人員不可能測試硬體和軟體的每個潛在組合,因此修補程式和更新可能會導致比您的特定伺服器或軟體堆疊修復更多的問題。例如,監控**補丁可能會導致重要工作負載的效能問題,因為新**會占用比預期更多的頻寬。

轉向 devops,借助更小的和更頻繁的更新會加劇潛在的問題。在部署之前,仍然需要在實驗室中測試任何補丁或更新。並且始終確保可以撤銷更改,並在必要時恢復原始軟體配置。

核實並記錄任何更改

在諸如硬體,軟體,系統配置更改的維護視窗中,伺服器可能會發生很多事情。完成伺服器維護清單後,it員工必須驗證和記錄任何新的系統狀態。例如,更改了網路介面卡,新增或更換了dimm,更新了作業系統和許多其他操作可能會改變系統的配置。依賴於系統配置管理工具的企業組織可能需要更新或「發現」更改——在系統允許恢復使用之前將這些更改記錄到配置管理資料庫。it人員可能需要更新任何強制或期望的狀態配置狀態,以允許更改。

還要驗證系統安全狀態,如防火牆設定、反惡意軟體版本或掃瞄頻率和入侵檢測/預防(ids / ips)的設定。安全檢查可以幫助確保對系統軟體的更改不會無意中暴露任何可能在先前配置中已關閉的攻擊面。

最後,一旦伺服器重新聯機,不要忘記更新任何系統備份或災難恢復(dr)內容。驗證伺服器的備份/ dr位置或頻率是否保持不變,除非這些相關設定需要特別調整以反映伺服器的變化角色。

資料中心伺服器大戰 思科vs惠普vsIBMvs戴爾

思科去過一直被視為一家純粹的網路公司。在企業和服務提供商網路中,以及在路由器和交換機市場上,思科都佔據著統治地位,擁有舉足輕重的影響力。惠普曾經是思科的長期合作夥伴。在合作中,惠普負責在銷售自己的資料中心伺服器 儲存 企業pc和印表機的同時轉售思科的路由器和交換機。戴爾也是如此,不過其合作程度小於惠...

資料中心伺服器接入部署的佈線方式

由於資料中心伺服器的形態差異 機架式伺服器 刀片伺服器 pod中伺服器機櫃和網路機櫃的佈線方式也存在差異。本文介紹eor mor tor和刀片伺服器幾種資料中心佈線方式的特點和差異。資料中心機房平面布局通常採用矩形結構,為了保證製冷效果,通常將 10 至 20 個機櫃背靠背併排放置成一行,形成一對機...

中心伺服器和分割槽伺服器的資料互動

要求 目前有多台伺服器,每個伺服器上面都利用資料庫儲存了資料,當然很有可能資料庫表有多個,但是資料庫表的個數是有限的幾個,現在需要使得每個伺服器上面的資料庫資料同步.每個伺服器僅能對錶中的一些資料進行修改.例如 多台伺服器共同完成資料庫表 usertable name,password 的同步工作....