運維人員麾下的機器學習「小徒弟」

2021-08-19 12:44:45 字數 3285 閱讀 4577

機器學習已經是智慧型運維的重要趨勢,並將在今後若干年得到快速發展。運維管理結合最新的機器學習領域的進展,將為智慧型運維在今後若干年帶來質變。apmcon運維自動化專場是當天參會人員最多的內容專場,參會者場場爆滿。csdn記者會後有幸採訪到了該專場演講的清華大學計算機系副教授裴丹,和裴教授**了他在機器學習領域的研究成果,以下是專訪內容:

csdn:請您介紹一下您的簡歷和團隊的背景。

裴丹:我在美國加州大學洛杉磯分校讀的博士,之後在美國工作了大概6年的時間,回國後加入到清華大學,在整個讀博期間和整個工作過程中,一直做智慧型運維相關的和網路效能管理和應用效能管理、資料分析相關的工作。在做資料分析過程中,形成了一套方**,通過機器學習的方法來解決網際網路公司、網路運營商在生產實際中的一些比較複雜的、有挑戰性的問題。

csdn:是什麼原因,促使您想用機器學習技術來解決智慧型運維問題?是因為技術的發展還是因為其他的原因?

csdn:現在是處於微服務的時代,機器學習和智慧型運維最大的難點是什麼?

裴丹:最大的難點有兩個,乙個是偏技術層面的,乙個是非技術層面的。偏技術層面,我們在人工智慧領域有很多相對成熟的演算法,在一些處理取得了很好的突破,但是好多演算法在智慧型運維領域,如何得到實際的應用,這個東西沒有乙個統一的規律,需要不斷嘗試。在嘗試的過程中,對實際參與的人有一定的要求,大家要有一套相對成熟的方**,能夠按以往的經驗,採用比較行之有效的方法,盡量大家優勢互補,相關的人結合在一起(懂演算法、懂系統的、有領域知識的)大家在一塊,盡快取得很好的突破。也就是說,在技術層面的難點是沒有乙個放之四海皆準的演算法可以直接使用,但是存在一些有效的方**。另外乙個難點是非技術層面的,有些問題非常非常複雜,複雜的原因主要在於需要協調很多部門。從這個角度來說,相對可行的方案,是讓整個公司層面能夠更重視智慧型運維,這樣的話大家有乙個統一的思路,能夠更好的讓各個部門有機協調在一起,讓智慧型運維工作做的更有效。

csdn:在微服務時代,機器學習如何解決多產品線、多模組的運維問題。

裴丹:我主要講一下如何自動評估模組上線的自動評估問題。現在在微服務的潮流下面,乙個公司,不管產品線多少,軟體模組或者微服務就會越來越多,產品的迭代和更新越來越快,每天可能都上線很多版本。這個時候,運維人員有乙個非常焦慮的問題: 上線之後到底效果怎麼樣,有沒有達到理想的預期,或者說有沒有造成沒有料想到的一些後果。如果用一些比較傳統一點的監測方法的話,只能是通過簡單的監控項監測、報警,剩下的工作要人工去做。我們知道你對已有的系統做了乙個變化,其實有很大的概率發生一些事情。一旦發生了一些問題的話,產生的***是立刻的,那個時候運維人員應對的時間是按秒計的,所以一定想辦法把這個過程自動化。

裴丹:我們做了乙個漏斗系統,一步一步篩選,對每次上線直接給出結果,你有沒有導致了沒有預期到的kpi的巨變。如果是,馬上反饋給運維人員,以及相關的版本開發人員,趕緊回卷,自動上線以及以及自動判斷回卷很重要的過程。前面的技術工作不是靠運維人員的眼睛去看,而是靠一些智慧型的演算法去做,這是乙個很好的機器學習的應用,要從歷史資料裡面分析,橫向的比較。既要縱向看時間,又要橫向的看對比組,做相應的判斷,最終大大縮短上線後判斷是否回卷的問題。

裴丹:這裡面乙個核心的思路是要把運維系統當作乙個產品來做。我們提供給運維人員的介面要非常友好和便捷易用,其中的技術細節(比如各種異常檢測器、各種演算法)對運維人員來講是不可見的。通過這個友好的介面獲得有監督機器學習必須的標註資料。

裴丹:再詳細說一下這個產品介面。假設我是徒弟,而運維人員之前帶過這個徒弟一點點了。在產品介面裡,機械人小徒弟對師傅說,「這是 檢測出來的異常,您看一看?」師傅說, 這個還真是乙個異常,就打個勾,這個標註就被小徒弟記下來了,形成乙個有特徵有標註的資料點。另外乙個情景,小徒弟檢測出來乙個結果,師傅一看是誤報,打個叉,又形成了乙個機器學習的點。還有另外一種情景,機械人小徒弟漏報了, 這時師傅開啟介面標註一下,又是乙個機器學習學習的資料點。就相當於乙個師傅帶徒弟一樣,徒弟在跟著師傅解決乙個乙個案例的過程中,積累了大量的經驗。對於人來說,更多的是感性和邏輯記下一些規律;對於機器小徒弟來說,它累積了一些資料點,剩下的用機器學習演算法就能處理掉了。

csdn:機器學習下的智慧型運維對安全方面有哪些考慮?

csdn:在做智慧型運維、機器學習領域過程中,令您印象比較深刻,對你有很大影響的事件是什麼?

裴丹:印象比較深刻的事件是我研究智慧型運維的思路從基於規則轉變成基於機器學習。原來用的很好基於規則的方法,在新的複雜場景中碰壁了。,這個時候我仔細思考到底是為什麼以及如何解決,突然意識到機器學習是個不錯的解決方案,然後突然意識到這其實是智慧型運維正在發生的變革。

裴丹:首先,alphago事件為人工智慧起到了很好的公眾宣傳作用。比如說,有一段時間,我們做計算機招生的時候,就會遇到一些困難,大家認為學完計算機不就做個程式設計師麼。但是人工智慧這個事情一旦火熱之後,普通老百姓對計算機領域的認知發生了變化,不再說學計算機的就是程式設計師,這對我們機器學習、智慧型運維的人才儲備都有很大的好處。其次,我們在研究乙個具體科研問題的時候,直接受到過阿爾法狗的啟發。alphago 用到了蒙特卡洛樹搜尋,我們為什麼不在我們的科研問題中用一下這個呢?蒙特卡洛樹搜尋,對於我們計算機領域很早就知道,也不是新演算法,但就是因為事件的觸發,腦子裡面突然有了這個想法,遇到實際問題的時候就用這個方法解決一下,對於我們當時的科研問題效果還是比較好的。一次像alphago這樣的公眾事件對工業界和學術界既有巨集觀的又有微觀的幫助。

csdn:您對聽雲這邊所提供的apm平台和工具,有哪些了解?

裴丹:包括聽雲在內apm廠商研製了不少有實際意義的平台和工具,解決了客戶大量的應用效能管理相關的實際痛點。整個apm領域近年來也在快速發展。 我們學術界不做產品,只是在一些非常有挑戰點上聚焦,然後把演算法做出來,學術界跟包括聽雲在內apm廠商是一種合作關係。apm廠商收集很多資料,在和客戶深入溝通的過程中,就會遇到一些比較有挑戰的資料分析的工作。學術界針對apm廠商遇到的有一定通用性的、普適性的、有挑戰性的問題做出演算法。所以雙方是非常互補的,學術界和工業界有很好的結契合點。

裴丹與csdn記者合影

清華大學計算機系副教授,主要研究領域是基於機器學習的網路和應用運維管理研究,在此領域有15年經驗,發表了80餘篇學術**和20餘項美國專利。裴教授是國家青年千人,美國ucla博士,曾任美國at&t研究院主任研究員。他是acm 和 ieee的senior member。

運維人員必須熟悉的運維工具彙總

本文出自 老男孩linux運維 部落格,請務必保留此出處 下面是在linux 運維方向老男孩最近幾年常用的免費的開源軟體,臨時即興想起來的,在這裡和大家分享,希望給初學者指引一點路。linux的世界真的很精彩,還沒入門的朋友趕緊進來吧!作業系統 centos ubuntu,redhat suse,f...

運維人員必須熟悉的運維工具彙總

運維人員必須熟悉的運維工具彙總 某日受邀請參加了乙個bbs活動,於是有了下面的內容。下面是在linux 運維方向老男孩最近幾年常用的免費的開源軟體,臨時即興想起來的,在這裡和大家分享,希望給初學者指引一點路。linux的世界真的很精彩,還沒入門的朋友趕緊進來吧!作業系統 centos ubuntu,...

運維人員必須熟悉的運維工具彙總

某日受邀請參加了乙個bbs活動,於是有了下面的內容。下面是在linux 運維方向老男孩最近幾年常用的免費的開源軟體,臨時即興想起來的,在這裡和大家分享,希望給初學者指引一點路。linux的世界真的很精彩,還沒入門的朋友趕緊進來吧!作業系統 centos ubuntu,redhat suse,free...