我認識的運維工作

2021-08-10 23:54:30 字數 2362 閱讀 1140

運維這個工作對於非運維崗位的人來講,一直都是神秘的,大家對於運維的工作內容其實並不了解,或者了解的比較片面。其實算是一種工作類別了,除去網際網路軟體行業的運維人員不說,一般的機關事業單位也有相應的崗位配置,即資訊處,科技處之類維護單位it系統的團隊,他們與網際網路公司的運維人員工作有類似之處。這裡我主要介紹下國內網際網路公司的運維。

國內網際網路公司的運維工作大致有以下幾個內容:1)資源管理,2)變更部署,3)監控告警,4)故障響應;除去這4個必備的內容外,很多公司的運維還需要參與系統的架構設計,推動系統效能,成本等優化以及系統安全等工作。

1.資源管理

資源管理其實最簡單的理解就是機器的管理,包括採購,規劃,排程等。對於開發團隊來說,他們不需要關心機器從**來,只需要找運維要機器就好,運維會根據開發的需求給出相應的伺服器資源。當然提到資源當然就涉及到成本,運維人員需要根據開發的業務重要程度合理的分配資源,保證採購回來的機器足夠使用。

2.變更部署

這個部分其實包含的內容非常多而且也非常複雜,包括業務的部署,變更,發布,回退等等。先說部署工作,部署工作不僅僅是將開發生產出來的軟體直接丟到機器上跑起來就完事的,這裡需要運維解決環境問題,比如系統,依賴(包括庫以及元件),網路等等,否則服務無法正常執行。變更其實是制定規則的乙個過程,對於網際網路公司來說,大多數故障都**於變更,開發上線程式,運維遷移資料等等。為了降低變更的影響面,提高成功率,運維需要制定一系列的變更規則出來,比方灰度時間間隔不能太短,一次不能灰度太多機器等。

3.監控告警

除了基礎監控(cpu,記憶體,磁碟等)以及開發自己上報的監控外,運維人員還需要對系統的關鍵部位安插告警點,對於敏感業務可能需要運維自己寫指令碼進行更加細緻,及時以及定製化的監控以便及時發現和定位系統的異常

4.故障響應

這部分是運維最常見的工作,當系統發生故障時,運維需要進行定位和修復,運維一般是進行系統級別的操作,比方切換網路,切換機房等。**層面的問題需要配合開發一起解決。

以上工作屬於大多數運維人員的基本工作內容了,運維即運營維護,運營層面需要做到以最低的成本做到高可用和高效能,維護層面需要最及時的發現系統問題以及推動解決問題。這個崗位需要的不僅是技術,還需要一些管理能力,工作日常非常瑣碎,單個運維一般會對接多個開發。

這個團隊離老大比較遠,一般是部門老大不怎麼關注的團隊,如果老大哪天找你了,相信我一般不會是好事

*************************====更新********************==

對於網際網路公司來說,最初不存在所謂的運維工程師,相關工作由後台開發工程師承擔。公司規模小的時候,這種模式執行的很好。開發自己購買資源,上架機器,部署,發布,監控等等。

公司規模大了以後,問題就出現了,人多手雜,發布流程沒有人去推進和落實,系統經常莫名其妙的因上線出現各種問題,排查和修復工作異常艱難;資源利用率低下,忙的機器負載高到宕機,閒的機器常年吃灰;現網環境管理混亂,開發在生產環境除錯軟體,任意修改系統引數;資料,網路,系統沒有安全可言,漏洞日益增多;容災高可用得不到保障,死一台伺服器,整個業務受到影響;研發流程低階問題頻發,**相互覆蓋,回退,聯調環境相互干擾,效率很低。為了徹底治理這種亂象,do分離,出現了運維工程師這個職業,本質上是後台工作的勞動分工。

研發和運維工作的界限比較模糊,以前的運維工作比較簡單,部署服務,管理資源,7*24監控等等,對於研發側的工作基本不會涉及,研發部門與運維部門通過交付文件來介面,當然很多情況是沒有文件的,只是開發的口頭交付而已,這種做法的痛點比較多,最明顯的,開發更關注業務的快速實現,很多時候會忽視安全,容災,效能,可維護性這些方面,當乙個有上述缺陷的模組發布到線上後,系統穩定性就會面臨很大威脅,但是在業務時間壓力面前,又不得不放行,最終的結果要麼是運維苦逼的人肉支撐,要麼是系統出現故障,研發運維一起背鍋。運維的話語權較弱,存在感非常低。

近年來devops概念盛行,希望運維可以將工作多向研發側延伸一截,谷歌提出了sre,本質上也是devops的具體實踐,和傳統的運維不同的是,sre除了傳統運維的工作內容之外,會參與到研發工作當中,相關itil流程系統化落地,研發管理,持續交付體系建設,架構評審,混沌工程,容量管理等等。本質上是擴大運維的影響力,更大範圍更深層次的推進標準化和穩定性建設。與傳統的運維工作相比,與業務融合度更高,從過去的被動響應式變成主動干預,相當於在之前的try catch之前加入了大量的if else防禦性攔截。

不過devops在國內的實踐有點尷尬,符合要求的人確實很少。傳統運維價值有限,入行門檻低,很多人把運維工作幹了乙個又窮又苦又low的民工職業。導致現在有實力的人大多不願意去做運維,而事實上,乙個合格的運維首先應該是乙個合格的開發工程師(很多同行不贊同,歡迎來**:)),除專業相關技能之外,還需要兼備管理,溝通,協調,方**等多個方面的能力。

小公司重敏捷,大公司重穩定。在實踐中,敏捷和穩定是一對相互衝突的範疇,只能是折中的藝術。運維工程師的核心職責是穩定,風控,成本。所有工作內容都是圍繞這個核心展開的,根據公司對於這個職業的定位不同,能力範圍不同,工作內容也有所不同。

重新認識運維

隨著業務的發展,新技術的迭代,公司研發採用了微服務架構或是上雲等等,這沒有考慮運維成本和效率,帶來運維極大的複雜性,讓運維純手工,苦不堪言,痛苦。從現象來看,運維和研發之間的矛盾更加嚴重。這是現狀,這也是趨勢,作為運維自己應該主動改變,做新型架構下的運維 sre,devops 第一是思維的改變,理解...

閒聊我心中的運維

在知乎我經常受邀請回答很多類似的問題 運維到底是幹什麼的?運維工作有沒有意思?運維有沒有前途?運維是不是要被各種技術取代?然而本人上知乎以休閒娛樂為主,一般不回答正兒八經的技術或者專業相關的問題,但希望這次能通過本文向各位題主描述清楚到底運維是幹什麼的,至於其有沒前途 有沒發展以及會不會失業等請讀者...

我的運維之路(四)

前段時間圈子裡傳了幾篇某培訓機構的軟文,只能說某人的營銷玩的很成功 以至於我在發布出第一篇文章時,就有人質疑我 不會又是某培訓中心的軟文吧 軟文與否,咱們且看後續更新。其實所有的培訓機構都是以營利為目的,想著盡早結業前批學員,迎接新一批學員,是大部分培訓機構的通病 所以更別想著老師們會對學生負責,課...