使用z score異常檢測演算法進行監控告警

監控是運維工作的基礎。隨著雲原生的快速發展，監控系統近幾年也快速向prometheus這類時間序列方案發展。用時間序列資料儲存監控指標，可以很方便且快速的收集指標並對資料進行處理與計算，但由於指標量變得龐大，對運維來說用這些指標資料做出合理準確的告警就成為了乙個難點。

傳統的閾值告警，在雲原生時代這種複雜的網路平面下，顯得有些不足。而這幾年很火爆的aiops使用機器學習演算法訓練出來的模型與引數，對於運維來說學習成本太高，使用起來也並沒感覺很準。監控資料其實在大部分時候都是有變化趨勢與規則的，這類資料用異常檢測演算法其實更合理，而且學習成本不高。

時間向量資料，特別適合應用於一些基礎的統計學演算法。計算很快，而且prometheus自帶的pql自帶標準差、方差、平局值、對數等，資料聚合特別方便。

我在實際生產中，使用z-score演算法。這個演算法很簡單，現在使用了有半年了，目前看在業務流量、連線數、qps、pv這類有比較明顯的高低峰的指標型別上，告警上很準確且靈敏。

z-score公式：z = (x-u)/σ

其中x是當前資料，u是均值，σ為標準差。

z值符合正太分布，99.7%的資料落在[-3,3]，z值離0越遠則越有可能是異常點。

假設指標名qps

x=sum(qps)by(instance)
u=**g_over_time(sum(qps)by(instance)[1d])
σ=stddev_over_time(sum(qps)by(instance)[1d])

平均值和標準差所選時間段不能太小，按參考文件所述，選取1000個左右的點比較合適，我這裡選的1d，實際差不多1k-3k個點。

告警規則
(sum(qps) by (instance) - **g_over_time(sum(qps) by (instance)[1d])) /stddev_over_time(sum(qps) by (instance)[1d]) >3or(
sum(qps) by (instance) - **g_over_time(sum(qps) by (instance)[1d])) /stddev_over_time(sum(qps) by (instance)[1d]) < -3

資料聚合的時候，聚合維度一定要保持一致，不然無法計算。我這裡全都用的by (instance)這個維度聚合資料。其實可以直接取絕對值大於3，這裡用大於3或小於-3是為了體現資料偏離方向。

具體在promethues裡怎麼配置，方法在網上很多，這裡就不再贅述了。

使用z score異常檢測演算法進行監控告警

異常檢測演算法 Isolation Forest

異常點檢測演算法

機器學習異常檢測演算法

使用z score異常檢測演算法進行監控告警

異常檢測演算法 Isolation Forest

異常點檢測演算法

機器學習 異常檢測演算法

相關推薦

機器學習異常檢測演算法