阿里雲k8s事件監控

2022-05-10 12:22:19 字數 2411 閱讀 5326

事件監控是kubernetes中的另一種監控方式,可以彌補資源監控在實時性、準確性和場景上的缺欠。kubernetes的架構設計是基於狀態機的,不同的狀態之間進行轉換則會生成相應的事件,正常的狀態之間轉換會生成normal等級的事件,正常狀態與異常狀態之間的轉換會生成warning等級的事件。開發者可以通過獲取事件,實時診斷集群的異常與問題。

通過以下三種場景為您介紹事件監控。

使用釘釘機械人監控並告警kubernetes的事件是乙個非常典型的chatops實現。具體的操作步驟如下:

單擊釘釘群右上角

圖示,進入群設定頁面。

單擊群機械人,進入群機械人頁面,選擇需要新增的機械人。此處選擇自定義機械人。

在機械人詳情頁面,單擊新增,進入新增機械人頁面。

根據如下資訊配置群機械人後,單擊完成新增。

配置說明

編輯頭像

(可選)為群機械人設定頭像。

機械人名字

新增的機械人名稱。

新增到群組

新增機械人的群組。

是否開啟outgoing機制

(可選)通過@群機械人,將訊息傳送到指定外部服務,還可以將外部服務的響應結果返回到群組。

說明 建議不開啟。

post 位址

接收訊息的http服務位址。

說明 當選擇開啟outgoing機制時,此項可配置。

token

用於驗證請求來自釘釘的金鑰。

說明 當選擇開啟outgoing機制時,此項可配置。

單擊複製,複製webhook位址。

說明 在群機械人頁面,選擇目標群機械人,單擊右側

圖示可以:

登入容器服務管理控制台。

在kubernetes選單下,單擊左側導航欄中的應 

無狀態,進入 無狀態(deployment)頁面。

選擇目標集群,命名空間選為kube-system,單擊右上角使用模板建立。

根據以下資訊配置模板,完成後單擊建立。

配置說明

集群選擇目標集群。

命名空間

選擇資源物件所屬的命名空間,預設是 default。此處選擇kube-system。

示例模板

阿里雲容器服務提供了多種資源型別的 kubernetes yaml 示例模板,讓您快速部署資源物件。您可以根據 kubernetes yaml 編排的格式要求自主編寫,來描述您想定義的資源型別。此處選擇自定義。

模板填寫以下自定義內容:

- --sink=dingtalk:[your_webhook_url]&label=[your_cluster_id]&level=[可選引數:normal或者warning,預設值為:warning] #level可配置為:normal或warning,預設值為:warning。當配置normal時,會在釘釘群收到normal和warning級別的告警;不配置或配置為warning時,釘釘群僅收到warning級別的告警。

在集群列表頁面選擇目標集群,單擊操作列控制台,進入kubernetes 控制台,選擇命名空間為kube-system,單擊左側導航欄部署,可檢視到eventer已部署成功。

預期結果:

部署成功後30s,eventer生效,當事件等級超過閾值等級時,即可在釘釘群收到如下告警。

參考文件:

K8s部署prometheus監控K8s細節

prometheus 一些配置檔案可以再github上找到。部署 root kube prometheus manifests 目錄下所有檔案 部署 root kube prometheus manifests setup 目錄下所有檔案 要注意的是自己要建立乙個工作空間 如果報錯執行下面語句 部署...

k8s 離線安裝 阿里開源 k8s 事件通知服務

在 kubernetes 開源生態中,資源監控有metrics server prometheus等,但這些監控並不能實時推送 kubernetes 事件,監控準確性也不足。當 kubernetes 集群中發生 pod因為 oom 拉取不到映象 健康檢查不通過等錯誤導致重啟,集群管理員其實是不知道的...

關於k8s集群監控

集群監控系統相關介紹 資訊蒐集 kube state metrics prometheus cadvisor 其中cadvisor是k8s原生的集群監控軟體 資訊展示 grafana.docker stats命令檢視記憶體使用情況 該命令從下面的路徑中的檔案進行記憶體資訊讀取 sys fs cgro...