Hotmail運維 管理超大型服務的挑戰

2021-04-15 10:19:43 字數 822 閱讀 8672

現狀:hotmail目前擁有遍及全球的一萬多臺伺服器,每天處理數十億的電子郵件事務,儲存量數千兆兆(pb),總共聘用不到100名系統管理員進行管理工作。

在增加伺服器數量的同時保持管理人員人數不變,即可管理性也是一項挑戰。

資料移植需要考慮複雜的效能規劃、資料中心空間以及能源消耗問題。

自行構建的管理工具包括部署、度量標準收集、賃單記錄、故障跟蹤、**覆蓋、監控、編目、故障檢測和構建系統。

許多應用程式都受到i/o的限制而非磁碟的限制,如何平衡i/o與資料的關係是非常困難的。指望磁碟效能向上擴充套件可能會失敗,應該依靠的是向外擴充套件。

處理乙個產品模型時,必須假設一切都會出錯,那麼就必須處理這些故障,所有資料都必須有副本,而系統必須能夠自癒。

現在有許多生產力工具可使工程師的工作更為簡單,因為您可以免費獲得服務。但那些服務本身可能不是最有效率的。因此在規模較小的應用程式中,您可以通過 這樣的服務僥倖獲得成功。但在超大規模的服務內,一切都要從頭構建並加以優化以降低成本,因為與運營成本相比,研發工作只不過是小問題。

使所有的部件都保持簡單,就是設計超大型服務的關鍵所在。

磁帶備份的概念已不再可行。構建能夠備份更改--將它們備份到便宜的磁碟中--的系統或許是我們的方向。

我們的操作小組從不希望信賴任何型別的使用者介面。一切都必須是可通過指令碼編寫的、必須是可通過某種型別的命令列執行的。惟有通過這樣的方式,才能夠執行指令碼,並收集來自上千臺機器的結果。

盡量保持所有的東西一致,包括部署、應用程式、錯誤和警報資訊。因為所有的東西都是一致的,所以需要增擴的操作人員少之又少。

在構建一種能夠簡便地進行管理的系統--特別是將來可能會大規模擴充套件的系統--時,其「咒語」就是自動化。 

運維服務能力管理體系應建立的幾種能力

運維服務能力管理體系應建立的幾種能力包括 1.運維業務戰略設計與規劃能力 企業應具備有對運維業務的定位 發展戰略 新型運維業務發展進行規劃分析的能力,能夠規劃出與戰略相匹配的運維業務方向 業務的管理策略 需要的配備資源等方面的能力。2.運維業務管控能力 企業應能規劃和設計運維業務的整體化 標準化的解...

簡單易用的IT運維伺服器管理程式分享!

感謝為linux開源世界而付出的所有朋友們,有能力的朋友來一起完善它。雖然這個軟體還程式很簡單,功能也不複雜,但是對於運維人員無疑還是不錯的!在這裡把此軟體分享給所有運維的朋友,請作者及參與者勿見怪。使用說明 演示版 user admin pass 31333741 qq.com 軟體目錄 ops ...

簡單易用的IT運維伺服器管理程式分享!

感謝為linux開源世界而付出的所有朋友們,有能力的朋友來一起完善它。雖然這個軟體還程式很簡單,功能也不複雜,但是對於運維人員無疑還是不錯的!在這裡把此軟體分享給所有運維的朋友,請作者及參與者勿見怪。使用說明 演示版 user admin pass 31333741 qq.com 軟體目錄 ops ...