運維機械人的一天

2022-10-01 23:00:24 字數 3532 閱讀 3756

大家好!我是opsgrat,上海泛汐創造的運維機械人。有很多人好奇我是做什麼的,可以解決什麼問題。先解釋下,我可不是硬體裝置,而是純粹的軟體產品,人家很單純的啦!我只要安家在一台機器上,經過簡單設定,就可以發揮強大的rpa(ommhae機器**程化自動化)的作用,幫使用者承擔大部分運維工作。

我把一天的辛勤勞作列給大家看看,相信大家就明白我有猴賽雷了。

0:00,有些夜貓子還在刷手機時,我在刷機器:

1、    日誌清理

很多系統都會產生日誌,時間長了影響運轉(磁碟滿、io不穩定等)。我會檢查作業系統、服務、應用產生的日誌,將歷史日誌進行壓縮轉儲。

2、    資料備份

每天系統、服務和業務會產生不少新的資料,以資料庫為例,新增的使用者、業務、產品資訊很重要。為了確保資料安全,我會將新的資料備份到本地,傳輸到遠端,實現異地備份。資料庫可能是傳統的mysql、oracle、sqlserver,也可能是nosql陣營的mongodb、influxdb等。

3、    大資料分析

很多客戶都有大資料分析需求,我嚴格按照人類夥伴設定的指令,對大資料相關的任務順序執行。為了確保資料準確,各環節的執行有先後要求,有了我的參與,無論是離線分析還是實時統計,都可以做到井然有序。

4、&nb程式設計客棧sp;   **發布

客戶的**發布工作,以前通過人類夥伴操作,有時發錯了機房,有時遺漏了配置。人們半夜操作也很辛苦,交給我之後,我會和各系統配合起來,實現自動構建、灰度發布、自動測試,檢測到問題我會立即自動回滾。根據統計,我投入工作後,發布引起的故障率下降了90%以上。

04:00,在環衛師傅清潔街道之前,我開始清理客戶業務執行的環境:

1、    系統標準化

人類夥伴有時在裝置上操作,無意間會忘了恢復原有的配置(目錄結構、許可權等),可能影響發布、監控,嚴重的還會引發事故。無論是 10 臺還是上萬台,我會認真檢查每個系統的環境,發現問題及時糾正、報告,保證環境的標準統一。

2、    清理垃圾

系統執行時間久了,會堆積一些垃圾,可能影響系統的安全穩定。我會按照作業系統(linux、unix、macos、windows)、服務(tomcat、redis、rabbitmq等)的特點,排查垃圾,及時進行清理。這些垃圾包括桌面的、快取的、瀏覽器的、記憶體映象等。

3、    業務標準化

我的客戶遍布各個行業,執行著不同業務軟體。通過行業方案,我可以幫助客戶快速建立業務執行的標準環境,包括執行程式的配置、目錄、許可權、相關使用者等。我會認真檢查每台業務裝置,與標準化環境對比。發現問題我會及時修復,同時報告給管理者,盡可能消除隱患的影響。

8:00,我的人類夥伴們陸續到達崗位,隨時檢閱我的勞動成果:

1、    任務完成情況

我在夜間,執行了多少任務,成功率高低,有沒有失敗的任務,分別是什麼原因等。

2、    工作流進度

我執行了多程式設計客棧少流程,各個流程耗費了多久,成功率多少,是否需要重複執行等。

3、    自動糾偏報告

和標準環境相比,我自動改正了多少問題,還有哪幾個需要人工排查。通過提示管理人員,將不標準的配置恢復正常,消除大部分事故隱患。

有的勤快的人類夥伴會到社群裡逛逛,檢查是否有最新的模板,確保系統緊跟潮流。

1、    作業模板

最近zabbix公升級了,是不是有了最新的作業模板?作業模板有時被我的創造者更新,更多時候是被有經驗的客戶提交,經過審核後實現更好的管理。

2、    工作流模板

我涉及的工作流很多,包括各行業的、各系統的,如**行業的windows裝機流程、網際網路行業的擴容流程、電商行業的**發布流程等。通過查詢合適的工作流,新使用者也可以快速讓我高效運轉起來。

12:00,當人類夥伴去享用午餐,我也不會閒著:

1、    打系統補丁

相信大家都聽說過位元幣勒索病毒,其實新的攻擊每天都會產生,誰讓那麼多人都吃飽了呢!只有及時更新系統補丁,才能防患於未然。我會檢查各系統是否有對應的補丁,矜矜業業地將補丁更新到每台裝置,做好客戶的守護神。

2、    安全檢查

除了及時為系統打補丁,我也會留意病毒庫是否有更新、對主機進行安全審計、檢查系統安全日誌等。安全源於遵照規則的 24 小時防範,通過我--完全尊重規則的運維機械人,就是為了即使出現一次疏漏,也能通過規則迅速彌補,不會重複犯錯。

16:00,下午人類夥伴有些疲勞,我卻依然精神抖擻,繼續執行一些指令,常見的有:

1、    軟體公升級

可能是幾十台nginx,可能是幾百台tomcat,也可能是上萬台linux裝置公升級核心。如果完全依靠人類夥伴,耗時費力,且容易出錯,有了我的幫忙,效率提公升了幾十倍,差錯率為0。

2、    安裝軟體

有時需要為幾十台windows機器安裝客戶購買的防毒軟體,有時上千臺linux裝置要裝上監控、日誌的agent,我會無休無眠地並行安裝,直到所有機器都整齊劃一。

20:00,在我的人類夥伴們享受家庭美好時光,圍坐在一起歡聲笑語時,我在不間斷地進行晚間作業:

1、    容量規劃

如果不進行提前的規劃,隨著業務的發展,等到磁碟滿、負載高,再進行干預,為時過晚。我會從監控系統中獲取基礎資料,分析近期和中長期趨勢,在發生問題前通知客戶處理。有時會自動發起流程,進行擴容,看我的人類夥伴如何要求了。

2、 &nbwww.cppcns.comsp;  安全管控

晚上是人們使用網際網路的高峰期,我會根據人類夥伴制定的規則,密切留意各種風險,並及時做出反應:當有黑客攻擊www.cppcns.com,我會啟動報警和預防機制;當有過多流量蜂擁而至,我會進行削峰處理,避免整體業務受影響;當有黃牛進行非法刷單,我會進行加入黑名單的處理。

不定期的,我會接到一些大型任務,無論任務多重,我都會毫無怨言立即全身心投入:

1、    裝置擴容

要做活動了,需要增加 50 臺機器。我會按照指定流程依次進行系統安裝、服務部署、**發布、啟用監控、引入流量、日誌採集等一系列操作。以往需要幾天甚至幾周的工作,交給我只要幾小時甚至幾分鐘。

2、    網路配置

如果客戶調整了防火牆規則,需要應用到所有網路裝置中。按照以往做法,少不得讓網路管理員加班熬夜,第二天出了問題不容易修復。給我規則,我會很快讓幾十上百的網路裝置更新到位,管理員下班不要太早哦!

3、    批量變更

對幾十台機器重啟?所有python2. 7 公升級?jdk需要回退到上個版本?交給我!我一不會抱怨,二沒有情緒,不管何時交給我多少工作,我都會樂呵呵地忙起來。

由於我的無差錯、自動化特點,以往需要耽誤人們大量時間的重複性工作,都交給我高效執行。有的以前需要幾周的工作,現在只需幾小時;有的經常出錯的,現在幾個季度都很難出現問題。

有了我的助力,人類夥伴的生活也得到了了改善:之前忙於每天做繁瑣低效操作的同學,現在不僅運維管理得好,得到了公升職加薪,還有時間去研究大資料和ai了;之前經常熬夜加班的團隊負責人,現在有了更多時間陪伴家人。

有了人類夥伴與我的配合,業務也有了長足進步:隨著運維效率的提高,70%左右操作實現了自動化流程化,差錯率降低;後台效率的提公升,帶動了研發、業務的效率提公升,最終實現客戶整體績效的改觀。

我的創造者—上海泛汐,仍在孜孜不倦地打磨我的功能、外觀、效能,讓我的使用更簡單,效能更強大。隨著信賴我的人類夥伴越來越多,我將幫助更多客戶取得更好的績效,與客戶夥伴們共同快速進步和成長,為廣大客戶創造長期價值。

本文標題: 運維機械人的一天

本文位址:

URDF機械人建模第一天

urdf檔案是機械人模型描述格式,乙個完整的機械人模型是由一系列link和joint組成。建模過程 建立機械人功能包mbot description,以及依賴檔案urdf和xacro,catkin ws src catkin create pkg mbot description urdf xacr...

機械人運維時代已來臨?這是真的

chatops is a collaboration model that connects people,tools,process,and automation into a transparent workflow.chatops提供了一種協作模式,人 工具 流程 自動化處在乙個透明的工作環境...

運維成長之路第一天

1.規則 1.學習過程中如何有效率的提問?1 直接丟擲問題 2 你現在要做什麼?期望的結果是什麼?出現錯誤,首先把出錯的問題截圖發到群裡來。其目的很簡單 快速定位問題,並解決。謹記 出錯時,系統一定會提示,所以,要養成 一定要相信電腦,不要相信自己的習慣 2.學習過程中碰到問題怎麼辦?2.了解什麼是...