如何才能高效做運維?

2021-08-25 08:12:48 字數 1889 閱讀 3944

很多公司整天研究,如何才能提高運維效率,達到高效運維呢?與人打交道遠沒有與機器打交道高效。每乙個人都有每乙個人的理由,運維事件難以推進!今天優秀的運維管理系統雲雀運維就和裡聊聊如何高效運維的話題!

01、什麼是高效運維

我們收集了一些來自外部門對運維的印(tou)象(su),如下圖所示。其中,大家看是否也多少有自己的影子?

往往看自己都很美,但從外部門來看,槽點多到乃至無力吐槽。首先,做事情不專業,人為事故多(更多是低階的人為事故);很多時候,都是我們業務部門告訴運維,運維才知道發生故障了,而且故障解決時間過長;做個除錯,老超出除錯時間,超時也不說,是不是完成了也不知會一聲;部門內老玩踢皮球的遊戲,做個需求,要挨個找人;申請個伺服器,更費勁了,扔乙個申請表,或者扔乙個技術文件,哪看得懂?

實際上,對外部門而言,運維是個黑盒子,是乙個輸入輸出的關係:外部門提出需求,運維給出結果:完成、或未完成。本質上而言,外部門不關心(也無法關心)採用什麼技術來實現的,只關心是否如期完成。合理的流程規範,就像血液,能讓部門穩定而高效的運轉,大家都覺得開心,這也是專業與否的重要組成部分。但如果希望做到高效運維,良好的客戶介面、合適的方法技巧,也非常有必要。這就像**的ui,給人感覺舒服了,後面很多事情也能輕鬆愉快、順理成章地進行。

02、為什麼難以做到高效運維

做不到高效運維,公司和業務部門不滿意,上級領導不滿意,自己也不滿意。原因很多,從管理者和員工角度分別來講。

糟糕的分工及連環反應

發生在中小公司的糟糕情況,往往從不明確的分工,開始悲劇之旅。公司業務擴大很多後,如果運維組織結構不隨之而變,分工不明確,就會發現大家都在疲於奔命,什麼都會的結果就是什麼都不精。在運維技術如此龐雜的今天,就是把人活活的架在火上烤。這樣引發的是多公尺諾骨牌效應:分工不明確—>職責不清楚—>考核不量化—>流程不合理—>缺規範、少文件。

03、如何做到高效運維

高效運維從來不是乙個簡單的事情,需要多方面共同努力來實現,本文先擇其要點簡述之,以後專欄系列文章會有更多深入闡述。

明確分工/職責

具體到運維部門而言,我們的分工,區別於內網it部。乙個是服務外部客戶,乙個是服務內部客戶,差別還是蠻大的。根據部門分工,拆解出各個小組的分工,再落實到每個員工頭上。有章法,大家也覺得舒心。運維是支援部門,成本中心,難以產生利潤。所以其中重要的考核指標其實是客戶滿意度,請相關業務部門給運維同學打分,運維內部根據分工,也可以相互打分,這對應著外部滿意度和內部滿意度。kpi雖然令人不舒服,但總的來說,還是有存在的合理性。

技術的專業化

1:優化監控系統

誰來監控監控系統?怎麼保證比業務部門先發現問題?是否需要新增業務監控?是否需要檔案監控?簡訊報警、郵件報警是否足夠?……監控是門學問,是專業運維的入口。展開說可以很大篇幅,先拋磚引玉,提出這些問題。實際上,對於資深、聰明的運維朋友,看到問題,就已經有了自己的答案。

2:減少人為事故

人為事故是運維最頭疼、最不專業的事情之一。例如**運維中,如果每次更新都需要登入伺服器……所以可以用類似jenkins的工具,實現web更新,這樣,除非重大更新(包括資料庫更新),否則都只需要點點滑鼠即可。甚至,可以把**更新外包回開發部門,這樣還能減少運維操作帶來的溝通成本、時間成本。

3:運維自動化

運維自動化是個大課題,網路上的討論也很多。建議選擇合適自己的方式、方法。

4:合理優化架構

近幾年國內優秀的開源軟體層出不窮,設計和優化架構,很多時候並不是非得自己從零起步來搞。例如redis,以其高效、穩定,已成為快取系統的最好選擇之一,但redis單例項的支撐能力有限,目前redis集群的實現,大多採用twemproxy,但使用起來老感覺有些美中不足,那麼,有沒有乙個取而代之的產品?

管理的專業化

管理上的專業化運維,甚至包括除錯通報和故障通報,都很有說法。系統執行一段時間後趨於穩定,除錯/更新就變成了故障的主要**之一,怎麼讓除錯少出人為事故,順利如期的完成?這是個技術活。

如何讓運維操作更輕鬆 高效

講師介紹 龐輝富 廣通軟體技術總監 擁有10多年it運維管理軟體研發經驗 致力於自動化運維解決方案的研究和推廣 主導研發的產品廣泛應用於海關 公安 能源等多個行業 技術發展給運維帶來的挑戰 當前的it建設在這些新技術的演進下,我們看到的是呈現 雙態it 特徵。gartner也提出雙模it理論,與現在...

saltstack的高效運維

先關閉防火牆 systemctl stop firewalld systemctl disable firewalld iptables f 配置阿里雲映象源 wget o etc yum.repos.d centos base.repo wget o etc yum.repos.d epel.re...

企業該如何進行高效IT運維管理

企業該如何進行高效it運維管理 在企業內部也是一樣,當大量的生產和經營資料集中在資料中心,一旦人們與資料中心因為it故障而失去聯絡,停滯的也許不是個人應用受阻這樣簡單的後果。我們誰也不想看到自己企業的資料中心停滯不前,那麼當中的it運維管理 就變得十分重要了,筆者就和大家來聊聊雲計算架構當中,企業該...