防患於未然 避免IT事故遠比補救措施更加重要

2021-09-01 10:58:21 字數 2526 閱讀 9014

應用程式效能管理起來既變化多樣、又複雜難馴。時至今日,it部門為了滿足業務形勢的各種需求,不得不在意外情況實際發生前就對問題進行預判,並詳細規劃修復故障可能耗費的時間——也就是mttr(即平均修復時間)。換句話來說,僅僅及時做出反應已經無法取悅消費者,現在技術人員必須在使用者尚未感受到之前,就將問題扼殺在萌芽狀態。

歷史在前進、形勢在變化

雲遷移、移動技術、byod等多種新興技術趨勢都帶來了極度複雜的管理機制,這就迫使it部門不能再滿足於傳統的識別及修復工作,而需要走在問題的前面。現在,技術團隊必須能夠**可能出現的情況、了解評估故障可能需要的時間,並最終實現關鍵性業務應用程式始終擁有最佳效能表現。事實上,各種跡象表明我們甚至已經初步擁有了能夠在故障實際發生之前就將其解決的先進技術能力。

如今以mtt開頭的縮寫詞家族可謂人丁興旺,從平均診斷時間(簡稱mtti)、平均修復時間(簡稱mttr)再到最新的平均**時間(簡稱mttp)——每個新生詞彙都代表著市場向技術團隊提出的新要求,這種迅猛的變化趨勢確實令人頭痛。可以說以上三套基準都意義重大、極具價值,標誌著技術運營的階段性發展方向,而企業使用者最關心的自然是這些突破性技術如何才能真正融入日常工作。在競爭壓力下,it部門不得不將負責範疇進一步擴大,嘗試在故障發生之前就將其解決——這將進一步降低技術工具對終端使用者的技能需求,使整套業務方案更為易用。

可**性已經成為應用程式效能管理工作中的關鍵環節,而且技術分析人士已經不再滿足於僅僅對處理時間做出預估。目前我們還只是對應用程式使用情況進行分析,但新時代的技術團隊能夠緊密追蹤巨集觀行為模式。此外,整個分析流程都必須以自動化方式進行,因為面對如此規模的計算量,人力根本無法帶來任何幫助。當然,這只是一種展望,目前我們還不能完成如此複雜的自動化處理工作。

就在不久前,汽車愛好者們還喜歡在引擎蓋下面大做文章,希望能榨乾自己改裝車發動機的最後一點潛能。如今,隨著機動車整體運轉機制的複雜性與自動化晶元的廣泛使用,隨便拿套工具就能為愛車加力的日子一去不復返了。與之類似,今天的企業級應用程式堆疊也面臨著同樣的問題——太過複雜精密、難以按需修改。

自動化實時**分析技術如今迎來了發展過程中的全新篇章,其中以雲基礎及混合環境為代表,這幾乎徹底改變了應用效能管理領域的遊戲規則。因此,我們不妨以改裝愛車的熱情來看待應用效能管理所面臨的技術風潮——這種突破性理念不僅能夠幫助it部門專注於創新及業務支援、緩和設施故障,更使技術人員得以利用**來代替修復、擺脫操作干擾,同時使用者也能獲得值得依賴的應用程式效能預估結論。

很長一段時間以來,「向雲環境遷移」、「it消費化趨勢」、「混合型it環境」以及byod等話題都被視為技術話題的重心,其中無疑存在大量炒作傾向。不過我們仍然要承認,這裡提到的每乙個話題都擁有改變遊戲規則的力量,同時也為現有業務系統帶來諸多創新空間與技術挑戰。說到挑戰,上述新技術給終端使用者帶來的技能要求可能是眾多問題中最難辨別也最難迅速解決的環節。

有鑑於此,**概念的誕生就顯得更加重要。很多專家仍然鼓吹利用傳統的時間序列資料分析機制來進行問題診斷、安全提示或警報閾值——但他們顯然忽視了新形勢所帶來的新情況:隨著網路化程序的普及與發展,分布式特性已經使應用程式的複雜性與關聯性大幅提公升。

目前我們已經發現了一種相當有趣的方案,能夠對橫跨多種互聯端點的網路負載行為及分布式應用程式產生深遠影響——它不僅能夠準確把握裝置的處理速度,同時還能根據終端使用者的不同服務水平協議將資源進行合理分配。這套方案不同於以往的行為學習(簡稱bl)機制,它突破性地利用多種考核維度來分析應用程式的使用情況。這種名為使用模式的多使用者多事務行為管理方案將每一分鐘加以充分利用,意外情況再也不可能在技術人員的監管之外肆意妄為了。

應用程式行為學習(簡稱abl)會捕捉並分析實時資料,及時反饋應用程式基礎設施中各層的實際效能狀態,並整理出終端使用者所感受到的真實使用體驗。abl會針對應用程式效能建立出動態,同時利用統計相關性與模式匹配技術自動發現各基礎設施元件的效能閾值。閾值自動發現(簡稱atd)方案能夠大大降低管理工作對人力的依賴並減輕配置工作負擔。

分析機制還提供早期預警功能,能夠深入探詢基礎設施關鍵性效能指標(簡稱kpi),並將異常情況及時反饋給管理人員。在預警功能的強大輔助之下,技術人員能夠更快地進行根本原因分析(簡稱rca)工作以及自動修復流程。

abl在對關鍵性應用程式效能指標的歷史及實時資料集進行彙總時,採用了相當複雜的分析演算法。到目前為止,系統、資料庫及儲存管理者一直都在以手動方式利用這類方案進行監控及故障排查,這種「亡羊補牢」的笨辦法正是眼下的主流機制。abl將問題檢測、故障排查重點以及生產環境下的爭議性問題等技術挑戰以自動化形式完成,這就迴避了傳統分析方案的複雜性及人工效率低下等問題,同時保障了高效能事務處理應用始終擁有充裕的可用資源。

在引入abl及**分析機制之後,it部門能夠專注於對每款應用程式進行效能優化,而不僅僅是優化底層裝置。相較於過去需要在幾分鐘或者幾小時內完成問題檢測、事故修復並應對一系列多層環境的基礎設施中心型應用效能管理方案,**分析機制能夠將工作強度控制在過去的數分之一。it如今可以在問題發生之前就做出**並加以防範——在某些停機情況下,事前準備能夠以五到十小時的時間節約量快速解決故障。

防患於未然,防微杜漸

當你仍在進行紙上交易並準備你的策略時,在你安靜 安全的辦公室裡計畫著金融戰役是更為容易的。整個戰役的每一方面都應加以研究和估算 如果 如果 應該做些什麼?在哪方面以及怎樣增加頭寸 金字塔 在哪方面以及怎樣減少頭寸的規模?如果所待頭寸變得不利,你是立即解除該頭寸,或者你會再次進入市場持有反方向的頭寸?...

防患於未然,防微杜漸

當你仍在進行紙上交易並準備你的策略時,在你安靜 安全的辦公室裡計畫著金融戰役是更為容易的。整個戰役的每一方面都應加以研究和估算 如果 如果 應該做些什麼?在哪方面以及怎樣增加頭寸 金字塔 在哪方面以及怎樣減少頭寸的規模?如果所待頭寸變得不利,你是立即解除該頭寸,或者你會再次進入市場持有反方向的頭寸?...

如何預防伺服器宕機 防患於未然

為了讓你的伺服器在最佳狀況下執行,你需要保持合適的環境 積極主動地維護和監控,並且制定一項計畫,那樣萬一伺服器果真出現了故障,員工知道該怎麼做。每個有汽車的人都知道,定期更換機油和更換輪胎有助於汽車行駛更順暢 壽命更長久,從而保護現有投入。同樣,採取幾個預防性措施也可以幫助資料中心的伺服器執行更順暢...