prometheus監控告警終極玩法包教包會的那種

2021-10-11 15:36:45 字數 1138 閱讀 8940

**倉庫中包含四個資料夾,分別介紹如下:

prometheus:prometheus的安裝與相關配置檔案。

alert:告警的安裝與相關配置檔案。

kube-state-metrics:k8s提供的metrics,不是必須安裝的,僅在用到的情況下安裝即可。

rules_targets:需要持久化的檔案,包括rules和targets。

prometheus

alert

kube-state-metrics

rules_targets

1.prometheus安裝使用了nfs作為持久化工具,所以需要提前安裝好nfs伺服器,使用者需要修改prometheus.yaml檔案中的nfs伺服器的位址與路徑。

2.alert沒有做持久化,因為告警的資訊基本是不需要改的,當然如果修改了,要麼使用者做持久化要麼修改配置檔案重啟即可。這裡最主要的就是配置檔案config-alert.yaml,這裡包含了郵箱伺服器的配置,必須注意的是smtp_auth_password並不是郵箱密碼!!

smtp_from: 『[email protected]』 ###傳送者郵箱

smtp_smarthost: 『smtp.163.com:465』 ###郵箱的smtp伺服器位址465

smtp_auth_username: 『[email protected]』 ###傳送者郵箱

smtp_auth_password: 『******』 ###使用郵箱生成的授權碼,並非郵箱密碼

3.kube-state-metrics,這是k8s提供的乙個metrics,主要用於監控k8s各種資源的最新狀態,如deployment或者daemonset。如果使用者想要監控mysql,那麼就需要安裝mysql的metrics,監控redis,就需要安裝redis的metrics,總之,監控不同的服務需要安裝對應的metrics。

最後說一下告警的原理,在prometheus中監控的服務存在三種狀態,分別是inactive,pending,firing,當監控的服務處於正常狀態是,就是inactive,一旦監控異常,即expr中的語句為真,那就觸發pending狀態,觸發pending之後只是說該服務滿足告警的條件了,但還沒有告警。在r.rules中存在乙個for的引數,這個引數的意思就是,pending持續1分鐘那麼久觸發告警,狀態變為firing,傳送郵件。

Postfix 佇列監控告警,傳送告警郵件

設定監控的最大佇列數,當postfix佇列數超過設定警戒值自動傳送告警郵件給相關運維管理人員 bin bash 佇列目錄 queue dir naes incoming active bounce defer deferred corrupt hold trace admin 15801509423...

監控告警優化需求的思考

目前主要負責監控告警,屬於運維開發的範疇。公司有三個以上核心專案,應用服務人數超過萬人。運維人員40人左右,總專案幾百個,資源分配不均。只能集中力量辦大事。昨天看到一篇文章,客戶和使用者的區別,當然產品是面向to c的,但是我認為所有的概念都是可以相互轉換的。客戶其實是可以對產品好壞進行評價,具有拍...

配置raid5監控告警

採用megacli sendmail方式 一 背景 伺服器建立了raid5陣列,但是硬碟執行狀態與健康情況無法實時獲取.通過查詢各種解決方案,決定採用megacli sendmail的方式定時獲取磁碟相關資訊 二.伺服器環境與需要安裝的工具 專案詳情 伺服器型號 dell r430 硬碟型別 nas...