如何做好大型資料中心的運維工作?

2021-09-30 21:23:23 字數 3129 閱讀 5556

隨著資料中心建設規模的不斷擴大,新技術的層出不窮,資料中心變得越來越複雜。大型資料中心往往是由很多規模龐大的集群系統組成,其運維工作需要具備方方面面的知識,包括硬體、網路、伺服器、儲存、安全以及業務上的東西,需要上下打通地去做運維工作。

當乙個資料中心的規模非常大,面臨的挑戰和問題也比較超前,很多在小環境小體系下不是問題的問題在這樣的規模下也就凸顯出來了,所以要做好大型資料中心的運維工作,對整個資料中心技術體系的系統學習就要花費比較長的時間,只有對這個資料中心整體非常了解,才能有針對性地制定一些運維方案,甚至可以二次開發一些監控運維軟體,對整個資料中心進行有效管理與監控,提公升整個資料中心的執行效率、減少故障的發生,從而將運維工作推向新的高度。乙個大型的資料中心內部往往都包含了很多小系統,運維工作都是圍繞著這些具體的應用系統展開的,具體的可以分為基礎運維管理、日常業務運維、網路、伺服器、儲存、安全六大部分,本文就來說一說一般大型的資料中心應該具備的哪些運維方法和能力。

首先從資料中心的基礎運維管理方面來說,則主要有硬體配置管理、可維護性優化、監控、報警處理、自動化運維、斷網,斷電、機房容災等運維工作。硬體配置管理包含機櫃裡每台伺服器的型號和硬體配置,並清楚是哪些業務系統在使用這些伺服器。即便是虛擬化執行環境,也需要知道這些虛機都在哪些物理機組成的資源池中流動。資料中心物理機和虛機數量都很龐大,使用自動化運維是非常有必要的。自動化運維不僅能提公升運維的工作效率,還可以減少人為的參與,同時讓資料中心自己管理自己,釋放人力。並對資料中心可能發生的故障還做好監控與報警處理,以便能夠在故障發生的第一時間知曉問題,往往一次大的故障都是從開始的一點小故障逐漸擴充套件最終引發整個大系統的崩潰的,所以在出現一些小的異常時一定要及時消除,而這些異常就要靠完善的監控和報警系統來檢測。

從資料中心的日常業務運維方面考慮,則主要有資源、機器分配、資源使用、網路吞吐、故障恢復、備份應用,集群搭建、流量,壓力,遷移擴容,公升級、上下級業務關聯情況、資源利用率、異常處理、應急預案等等。這些日常運維工作實際上要花費大量的人力和時間,是運維工作的主體,也最煩瑣,但卻最不能體現業績的部分。乙個資料中心能夠長久安全穩定執行,就是靠這些日常的工作積累,只有平時注意這些細微的變化,才能不斷優化。壓力測試、軟體公升級、業務部署、異常處理等幾乎成為了運維工作的日常必修課,只有將這些工作做好,才能避免出現大的故障,並能夠快速部署新的業務,根據資源使用情況及時擴容裝置。

從資料中心網路方面考慮,則主要有網路硬體裝置、acl、ospf、lacp、vip、流量、負載均衡、二三四七層情況、網路監控、萬兆板卡、核心交換等。網路是資料中心的重要組成部分,是一切工作執行的基本保證,沒有網路資料中心就無法運轉起來,所以保證網路穩定是資料中心運維工作中的重中之重。這裡主要關注的就是網路的硬體問題,acl部署還有流量監控情況。網路可以說是包羅永珍,涉及太多的裝置和協議技術,所以也需要不斷地學習,加深對網路技術的理解,這樣才能做好網路運維工作。

從資料中心伺服器方面考慮,則主要有檔案系統、核心引數調優、各種硬碟驅動、核心版本、kernelpanic等。linux系統不僅在伺服器,在網路作業系統也佔據著主流地位,掌握linux系統的使用才能更好地處理伺服器和網路裝置的運維工作,linux是運維工作的一項基本技能。除了熟悉linux系統的操作,還要對伺服器的執行狀態和核心執行狀態進行監控與管理,減少伺服器故障的發生。一般大型的資料中心都包含有成千上萬臺的伺服器,幾乎每天都會有伺服器出現各種各樣的問題,只有對伺服器有深入理解才能很好地消除問題。為了防止伺服器故障引發業務中斷,所以一般在伺服器上都要部署虛擬化技術或者集群技術,當一台伺服器物理硬體故障時,業務可以平滑切換到其它伺服器上,業務不會受到任何影響。這些虛擬化技術增加了運維的難度,也需要對虛擬化技術進行不斷深入學習。

從資料中心儲存方面考慮,架構更加多樣和複雜化。在雲計算、虛擬化、大資料等相關技術進入資料中心後,儲存已經發生了巨大的改變,塊儲存、檔案儲存、物件儲存支撐起多種資料型別的讀取;集中式儲存已經不再是資料中心的主流儲存架構,海量資料的儲存訪問,需要擴充套件性、伸縮性極強的分布式儲存架構來實現。在大規模系統支撐上,分布式檔案系統、分布式物件儲存等技術,為儲存的各種應用提供了高度可伸縮、可擴充套件和極大的彈性支撐和強大的資料訪問效能,並且因為這些分布式技術對標準化硬體的支援,使得大規模資料中心儲存得以低成本的建設和運維。當然分布式儲存不是要取代現有的盤陣,而是為了應付高速成長的資料量與頻寬而產生的新形態儲存系統。另外就是軟體定義儲存,它代表了一種趨勢,即儲存架構中軟體和硬體的分離,也就是資料層和控制層的分離。對於資料中心使用者而言,通過軟體來實現對儲存資源的管理和排程,實現儲存資源的虛擬化、抽象化、自動化,能夠完整的實現資料中心儲存系統的部署、管理、監控、調整等多個要求,使得儲存系統具備靈活、自由和高可用等特點。企業及網際網路資料以每年50%的速率在增長,新增資料中結構化資料總量有限,多數為非結構化、半結構化資料,資料中心儲存架構隨著業務發展也需要極強的彈性適應能力,低成本、海量擴充套件、高併發效能是面向大型雲資料中心運營儲存架構的基本技術屬性。如何進行數量龐大且雜亂無章的資料儲存與深度應用處理,並迅速提取有價值的資訊,形成商業決策將成為各型別企業生存基礎,也是今後儲存以及圍繞儲存架構不斷衍生的業務發展方向。

最後從資料中心安全方面來考慮,安全就是十幾個小項:攻擊保護、公升級備份、抓bug/找bug、指令碼工具、資料安全、服務巡檢等專案,其中每一項拿出來其實都包含很多的內容。比如說到攻擊與保護,這個主要指的是防止外來的異常入侵者對資料中心發起的惡意和無意攻擊,惡意攻擊就是有人故意的使用各種攻擊方法,進入到資料中心內部,將重要的資料竊取或者破壞,達到其不可告人的目的。也有的是無意的攻擊,因為整個資料中心是要與外界保持互聯互通的,執行是動態的,變化的,不可避免會有一些異常流量攻擊資料中心,有時甚至來自於資料中心內部,比如某些伺服器中毒,或者硬體故障,構造出了環路,異常流量等網路故障,這些都會影響到資料中心的執行,所以如何做好資料中心的攻擊與保護是乙個很大的題目,這並不是在資料中心裡部署幾台安全裝置就能解決的,需要對整個資料中心進行全面的統一規劃,並有針對性地部署一些安全防護措施,而且隨著各種黑客技術的提公升,安全防護措施也要不斷提公升,這是乙個不斷學習與完善的過程,只要資料中心還在執行,這個完善就不會停止。為了方便運維,也要做好一些執行指令碼,以便在出現突發事件時,能夠快速處理問題。比如乙個資料中心的業務出現異常,為了快速恢復業務,需要將路由進行調整,將流量全部引到其它的資料中心,這就需要在核心路由器上進行調整,這時有個現成的指令碼就可以自動執行,達到快速切換的目的。資料中心還應該準備很多其它工作的指令碼,以便緊急的時候快速使用。

通過上面的分析您一定很驚訝,原來資料中心運維包含這麼多內容,大大小小數十項,而且每一項包含的內容說起來都不那麼簡單,也涉及很多的技術知識。乙個資料中心能否穩定執行,能夠高效執行,運維是關鍵。只有將這些運維工作很好地部署和執行下去,資料中心才能長期穩定。

再談大型資料中心的運維工作

隨著資料中心的建設規模不斷擴大,新技術層出不窮,資料中心變得越來越複雜。資料中心往往是由很多規模龐大的集群系統組成的,運維工作需要具備方方面面的知識,包括硬體上,業務上的東西,需要上下打通地去做運維工作。因為很多資料中心的規模非常大,面臨的挑戰和問題非常超前,很多不是問題的問題在這樣的規模下也就凸顯...

資料中心運維指令碼的力量

運維是資料中心生命週期中持續時間最長的一部分,隨著資料中心建設規模和複雜度的增加,運維的工作變得更加繁瑣。在運維的工作中,有相當大部分工作都是重複性的指令行操作。所以,不少的運維工程師研究出不少提公升工作效率方法,減少人力成本,這就是指令碼。將一些重複性的 邏輯關係明確的操作工作通過指令碼下發來完成...

雲時代如何簡化資料中心網路運維?

sdn,在經歷了猶豫彷徨 百家爭鳴之後,目前已成為企業cto的堅定選擇。sdn時代的網路展現出兩面性 一方面讓客戶使用更加簡單,另一方面卻讓運維更加複雜。而當前,整個行業的目光多聚焦在前者而忽略了後者。隨著sdn的部署如火如荼,一絲憂患也隱隱浮現。2015年12月,管理行業研究機構ema enter...