解析網際網路資料中心海量運營之道

2021-09-23 06:46:02 字數 4514 閱讀 1884

網際網路業務的快速發展,其資料中心除了自身數量、規模體量在快速增長外,承載的業務也呈現海量增長模式。面對如此海量的裝置和需求,開發者應如何保障資料中心的安全、高效、穩定的運營呢?除了建立完善的運營體系,其思路和方法同樣很重要。本文詳細闡述了如何做好自動化運營、計畫性運營、做好精細化運營、預防性維護和應急演練以及做好外包管理、和人員培養的解決之道。

面對如此海量的使用者和業務,我們的資料中心運營又未嘗不是海量的,如下資料應該能夠有所說明:

monthlydeliver server 10,000+;

monthlyreboot request 4,000+;

monthlymigration request 2,000+;

monthlyos re-installation 2,000+;

monthlyhardware replacement 500+;

monthlyhard-drive replacement 800+;

面對如此海量的裝置和需求,我們應該採取什麼樣的方式,才能保障資料中心的安全、高效、穩定的運營呢?其實,這樣的問題一直以來都存在,需要考慮的點、線、面也很多,每個運營管理者都會有很多的想法和措施。對於網際網路公司而言,面對海量資料的挑戰,一定要建立完善的運營管理體系。但今天,我們不談體系,而是關於如何做好網際網路資料中心海量運營的思路和方法,就個人的體會,做一些散談。(當然,如有不妥之處還請包涵。)

個人認為,在滿足業務高速發展時,大規模資料中心的海量運營過程中必然存在諸多的問題和挑戰,那是否我們需要針對所有的問題和挑戰,都制定詳細的解決方案去快速應對呢?我想大家的回答應該都是否定的。確實,我們要想快速有效的提高海量運營的水平,一定要找準制約我們做好海量運營保障的主要矛盾,排出優先順序,有針對性的把關鍵的幾個點先解決好。個人目前所關注的做好資料中心海量運營的五大道法是:做好計畫性運營、做好自動化運營、做好外包管理和人員培養、做好預防性維護和應急演練、做好精細化運營。下面逐一介紹一下:

道法之一,做好計畫性運營。

如前所說,網際網路業務發展快、變化快、需求多樣,一味的保姆式服務是無法滿足海量業務的需求的。這樣就要求:一方面,運營團隊需要梳理清楚自身的工作目錄和量化自身的服務能力,形成標準清晰的服務目錄。

主動管理使用者和老闆的預期,建立服務支撐模型和基線。另一方面,需要主動地和使用者溝通,了解使用者的真實需求和業務發展計畫,匹配自身的服務目錄和能力基線,與使用者就需求進行明確、清晰的定義和分級。對於海量通用的一般級別需求,就提供簡單的週期性、計畫性的標準化運維服務(如乙個資料中心的硬碟,只在每週固定時間進行批量更換),只是針對個別重要需求才提供高效可靠的個性化實時保障服務。這樣一方面可以推動業務在架構層面做好冗餘優化,盡可能的選擇通過一般級別的通用標準服務來滿足需求。

另一方面,也可以有效的減少一味高效可靠服務所帶來的高運營成本。有效的做好so運營模式,一方面能夠讓運營團隊提前了解資料中心面臨的業務需求和壓力,推動在業務層面就做好風險管理,另一方面,只有做好so運營,才能讓運營團隊在海量運營中輕鬆應對,保障平穩執行。

道法之二,做好自動化運營。

在我們把運營的操作、流程規範化、標準化以後,是否操作人員只要嚴格按照規範、流程操作就可以把運營工作做好呢?在我們把一些設施裝置的運**況做了監控,能夠上報報警資訊就可以確保及時、準確的發現問題了嗎?當然不是,面對海量的運營需求和事件,單靠人工去按規範、標準是肯定無法有效支撐和保障海量運營的。同樣,如果我們的報警資訊不做精細化的梳理和收斂,海量的故障資訊報上來,運營人員是無法快速、準確定位的。所以說,首先,需要有一支懂得資料中心一線運營流程和基本操作的開發團隊。

其次,由這支開發團隊,開發出相對強大的自動化運營管理平台,通過平台與各個自動化系統和工具進行關聯,把運營管理的流程、標準、規範都自然、順暢的融合到自動化系統中。通過自動化平台,除了幫助資料中心運營管理人員快速、高效的發現和解決問題,還要讓運營人員通過自動化平台去快速、準確、高效的做好容量管理、資產管理、風險管理,外包管理等等一系列的資料中心運營管理工作。

我們的監控系統,除了精確發現故障、上報故障外,還可以考慮結合業務特性和布局,通過系統工具實現故障的自動修復,提高裝置系統的自癒能力。把一線的運營人員,從簡單、重複性、例行化的工作中解放出來,讓他們能夠有更多的精力專注在對資料中心屬地的整體運營優化管理工作中,提公升資料中心的整體可靠性、運營服務的質量和效率、有效控制能耗和運營成本。

道法之三,做好外包管理和人員培養。

在國內,資料中心行業正在蓬勃發展,但其中專業的資料中心運營人才匱乏,如何培養和留住資料中心專業運營人員,是非常重要的一項工作。客觀的說,運營團隊一般都會面臨壓力大、成就感不強、穩定性不好等幾個問題,而造成這種局面的主要因素**於資料中心運營的工作特性——7*24的工作強度、工作內容的重複性、隨時可能出現的風險故障,以及如何快速應急的壓力。對於運營團隊面臨的挑戰和問題,其中做好技能識別,引入外包資源,平台搭建是乙個解決方案。

通過對運營工作及運營人員知識結構的分析,可以考慮引入外包資源,參與一線運營工作。外包的管理工作分兩塊:一塊是,設施裝置外包給專業的維保單位來執行。對於專業的資料中心設施裝置,使用者不太可能完全通過自身的技術人力來做好設施裝置的維護保養工作,必須通過專業廠家來執行。使用者聚焦在這部分外包維護的計畫、執行監管和優化方面。

另一塊是,把重複性、例行化的標準操作層面的工作,外包給專業的服務提供商來完成,如:巡檢、直配、上架、硬體更換等等基礎性的操作工作。使用者主要聚焦在做好例行工作的標準化制定、外包工作計畫、運營任務管理、執行過程監管,以及外包人員的技能培養和外包商/人員評估考核方面。而另一部分,技術要求高且需要充分經驗支援的優化和風險控制的工作由自有團隊中有一定經驗的人員來完成。通過技能識別和外包引入,員工的技能和職責匹配度更高,更有利於管理好崗位預期,一定程度上可以緩解運營團隊的壓力。

除此之外,為運營團隊搭建乙個知識學習和分享提公升的平台也非常重要,為運營人員建立明確的職業發展通道和發展計畫,通過各種形式的對內對外技術培訓和分享交流等途徑來逐漸提公升一線運營人員自身的競爭力和行業影響力,幫助運營團隊提高崗位認同感和職業成就感。

道法之四,做好預防性維護和應急演練。

對於資料中心預防性維護通常考慮的乙個重點就是基礎設施部分,基礎設施的故障往往對資料中心的穩定運營帶來較為嚴重的影響。一般資料中心基礎設施的故障中,70%屬電力方面的原因,20%屬空調製冷的原因,10%屬於光纖銅纜等其他設施的原因。整體而言,前期的產品質量、施工工藝和後期的設施維保工作不到位是造成資料中心出現問題的主要原因。

那麼如何應對這些故障隱患呢?沒有他法,在交付階段一定要重視機房測試驗收的過程。通過假負載測試,一方面幫助驗證確保機房各設施、系統的施工質量及系統功能符合要求。另一方面通過模擬可能的故障場景以驗證相關系統群控邏輯符合要求,同時獲取更多一手資料和驗證應急預案的基本可行性。在運營階段,除了嚴格做好廠家維護保養工作之外,運營團隊日常對高危設施裝置有效的預防性巡檢工作也非常關鍵,比如用熱成像儀對高危設施裝置進行檢查可以有效提前發現潛在的故障風險。

另外,每個月1-2次的應急預案實操演練,包括多場景、多系統設施聯動的應急預案的處理是否被有效的理解和熟悉,這些都應該在日常運營工作中被重視起來。因為,對於資料中心來說,某個專業系統的設施故障,往往都會聯動影響到其他領域的系統出現異常。如:配電系統故障斷電,往往也會影響空調系統執行,影響末端製冷,形成高溫。那麼此時,配電系統應急預案和空調系統的應急預案是需要聯動起來同時執行,如果平時的演練不到位,在這樣的突發情況下,很難有效從容應對。

除此之外,在制定應急預案和應急演練中還有一塊是容易被忽視的,那就是與業務的聯動。網際網路行業統一產品會提供不同的應用,在基礎架構側出現故障時,如何有效做到業務的「柔性可用」。這就要求資料中心的運營側要非常了解屬地承載的業務特性和重要性分級,明確突發情況下的優先保障機制和不同應用取捨。只有制定匹配業務特性的應急預案,並通過定期的與業務聯動的多場景應急演練,確保在出現故障時能夠快速有效的確保重點業務或重要應用的連續執行,最終做到統一產品在不同應用上的柔性可用,確保對使用者影響的最小化。

道法之五,做好精細化運營。

這一部分,我們重點從兩個方面來看,乙個是能耗、成本,乙個是業務可靠性。首先,我們看看下面的資料:

伺服器小於1 萬台,全年耗電約0.35 億千瓦時——電是次要因素。

伺服器小於10萬台,全年耗電約3.5億千瓦時——電是重要因素。

伺服器達到50萬台,全年耗電約17.5億千瓦時——電是主要成本。

伺服器跨越100萬台,全年耗電約35億千瓦時——電是top1成本!

這個資料表明,當運營乙個海量資料中心時,你會發現將作為運營成本之一的電費,將是乙個非常龐大的數字,正是因為這個龐大的數字,你會被管理層給「盯上」。所以,精細化運營的乙個重點就是要考慮在保證資料中心有效安全穩定執行的情況下,如何節能降耗,從而有效降低電費,控制運營成本,就成了精細化運營的乙個重點。

其次,基礎架構建設可靠性級別再高的資料中心,也不能保證不出任何問題。一方面產品量問題、施工質量問題,甚至人為操作的問題,都很可能影響資料中心的連續性。所以說,如何做好業務可靠性、連續性保障,如何引導業務在自身架構層面做好架構冗餘,而不是把安全可靠執行的寶全部壓在資料中心基礎架構的可靠性上。如何把乙個低建設可靠性的資料中心,通過後期運營管理為乙個高可靠性的資料中心,以實現業務的快速部署,快速騰挪,跨區冗餘,快速排程,才是精細化運營的精彩所在。

檢視網際網路資料中心有感

12月27 日中午,我去某個 idc 所謂 網際網路資料中心 實地檢視,有所感悟。記得,十年之前,我有乙個朋友,搞 世紀互聯 其實搞的就是 idc。至今,我仍然佩服他的眼光。一般說來,idc就是伺服器集中託管的地方,那裡的 系統管理 軟體很複雜,管理起來,成本很高,得靠 規模 賺錢,實屬不易。但是,...

企業資料中心和網際網路資料中心有何不同

資料中心按照服務物件的不同,可以分為企業資料中心和網際網路資料中心。企業資料中心指由企業或機構構建並所有,服務於企業或機構自身業務的資料中心,它為企業 客戶及合作夥伴提供資料處理 資料訪問等資訊服務。企業資料中心的伺服器可以自己,也可以從電信級機房中租用,運營維護的方式也很自由,既可以由企業內部的i...

網際網路運營的資料思維

關於本文 2 筆者首先嘮嗑了一些當下比較流行的大資料分析 bd 人工智慧 ai 技術 4 羅列了一名給出的10條運營必備的思維 最近老覺得跟不上時代的進步了,絕對是每天只沉浸在專案的程式設計中所造成的,所以一有空我就得去好好的去了解下這個 網際網路 時代。我呢,現在也來大膽的猜想猜想,如果有說錯的地...