資料中心智慧型化運維之路

2021-09-23 06:46:02 字數 2094 閱讀 8233

在新技術層出不窮的今天,資料中心運維工作總是得不到足夠的重視。資料中心在不出任何問題的情況下,對運維的工作是持預設態度的,但如果出了一系列問題,付出的工作可能毀於一旦,工作的績效有點要拼人品的味道。其實,正如那句話所說的「古羅馬不是一天建成的」那樣,資料中心發生了故障,甚至是致命的故障,很多時候並不是突然就發生的,是平時工作的長期忽視才最終釀成了悲劇。如何做運維才能體現出工作的價值,如何做運維才能降低資料中心出現故障的風險,在這樣的需求背景下,智慧型化運維應運而生。

資料中心運維工作主要包括配置管理和監控,運維人員每天都要進行大量的模組維護操作。運維的操作設計程式更新、配置修改、資料傳輸以及各種自定義的命令執行。在運維過程中,這些大多是通過手工操作或編寫指令碼的方式,將模組更新到生產環境中,手工操作不可避免的會帶來誤操作,效率低下,甚至出現過模組上線操作排隊的現象。另一方面對資料中心執行的監控,資料中心裡執行著成千上萬臺的各種裝置,經常會出現這樣那樣的問題,要等到故障反映到業務層面,那實際上已經造成了損失,所以在嚴重故障發生之前,如果能夠發現一些裝置執行的異常表現,及時消除就可以減少故障對資料中心的影響,對資料中心進行監控就是將危險消滅在搖籃之中。然而資料中心裡的裝置、應用程式、組網包含很多小系統,非常複雜,如果靠人去檢查,不僅效率低還容易漏掉,而通過智慧型化運維就可以通過機器去檢查所有執行的裝置,並且對這些執行的裝置進行監控,發現隱患及時告警,當運維收到這些告警時,再採取行動。智慧型化運維不僅將運維人員從繁瑣的工作中解放出來,而且還大大提公升了運維工作的效率,是未來資料中心運維發展的主要方向。所謂的智慧型化運維,在這裡給下個定義,就是用機器來代替運維人員,在最少人工干預下,結合運用指令碼與第三方工具,保證業務7*24小時高效穩定執行,這也是所有資料中心運維工作的終極目標。

隨著資料中心規模越來越大,通過人工的方式做資料中心執行幾乎不可能,這使得智慧型化運維得到了很快發展,也出現了很多智慧型化運維的軟體。比如:監控系統用nagios,流量監控用cacit,集群監控用ganglia,ping監控用ipmonitor或xping,配置管理用puppet等等,這些軟體都是開源的,可以根據自己資料中心的業務特點進行修改,形成自己的運維工具。乙個智慧型化的運維工具要想覆蓋到所有的裝置,所有可能出現的風險,是一件非常困難的事情,因為資料中心涉及的裝置和技術實在太多了,並且這些技術還在不斷地更新著。資料中心對運維的要求是:事前預警:在故障出現之前,管理人員應該能在任何時間,任何地點接收到告警資訊,並及時處理問題,把故障隱患扼殺在搖籃中;事中恢復:天有不測風雲,即使是再完美的方案也可能有預料之外的故障,為保證在最短時間內恢復業務,關鍵資料不因故障丟失,我們需要有完整備份方案來應對自如;事後存檔,以便吸取教訓,避免故障二次發生。要實現這樣的運維要求,可不是一件容易的事情。這需要乙個經驗豐富且高效的運維服務團隊來完成。隨著我們的業務系統不斷增加,業務量的不斷上公升,成熟的運維服務基本會借助第三方工具,高效的進行軟體的部署與運維。

智慧型化運維要做到事前預警,事中恢復,事後存檔,實際上是要有大量的工作要完成。首先,要對重要的裝置實施主動式監控,如路由器、交換機、防火牆等。當這些裝置在執行過程**現告警時,要及時通知到運維人員,對於一些簡單的告警智慧型化工具可以自行處理並修復,直接將處理結果反饋給運維人員即可。其次,新業務部署或配置變更檢測也要做到自動化。新業務部署時涉及很多裝置和應用程式的調整,這個涉及大量的人工操作要有智慧型化工具來代替,還有各種裝置的配置引數若發生變化,也將觸發變更流程轉給相關運維人員進行確認,通過自動檢測協助運維人員發現和維護配置。第三,維護事件提醒自動化,通過對裝置和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,第一時間通知相關運維責任人,以便採取進一步行動。第四,系統健康檢測自動化。定期自動地對裝置硬體和應用系統進行健康巡檢,配合運維服務團隊實施對系統的健康檢查和監控,及時發現系統級的執行風險。最後,維護報告生成自動化,定期自動地對系統做日誌的收集分析,記錄系統執行狀況,並通過階段性的監控、分析和總結,定時提供運維服務的可用性、效能、系統資源利用狀況分析報告,以便資料中心可以根據運**況,進行下乙個階段的投資。實際上,已經有不少的公司看到了資料中心運維的市場機會,推出了一些智慧型化工具,不過由於每個資料中心都有自身的特點,不少工具並不適用,需要大量的修改,真正能夠給資料中心運維帶來革命性改革的工具還沒有看到,因為智慧型化運維還有很長的路要走。

在可預見的未來,運維的角色將變得越來越重要,資料中心的運維工作也將越來越繁重。智慧型化運維不僅能滿足我們對資料中心運維的要求,解放生產力,還能使我們的運維管理更加規範化,標準化,從而真正意義上的實現智慧型化執行。

資料中心導航 智慧型化基礎設施管理系統

本文講的是資料中心導航 智慧型化基礎設施管理系統,新的技術浪潮對桌面應用提出了更高的頻寬要求,而對主幹網路的頻寬要求則還要更高。這意味著您的基礎設施網路必須比以往更強大 更可靠 可用性更高。不可否認,網路已成為當今社會的第四種公共設施,而且必須是全天候可用的。it 經理或技術支援人員只需在 正常 工...

資料中心運維指令碼的力量

運維是資料中心生命週期中持續時間最長的一部分,隨著資料中心建設規模和複雜度的增加,運維的工作變得更加繁瑣。在運維的工作中,有相當大部分工作都是重複性的指令行操作。所以,不少的運維工程師研究出不少提公升工作效率方法,減少人力成本,這就是指令碼。將一些重複性的 邏輯關係明確的操作工作通過指令碼下發來完成...

關於資料中心運維管理概述!

資料中心作為資訊與資訊系統的物理載體,目前主要用於與it相關的主機 網路 儲存等裝置和資源的存放 管理。只有運維好乙個資料中心,才能發揮資料中心的作用,使之能更好地為業務部門提供強大的支援能力。本章從it服務商的角度對資料中心運維管理進行系統的介紹,其出發點在於運維的精確控制 管理水平和服務質量的持...