k8s一次滾動更新的異常

問題來自於乙個朋友，不是筆者親身經歷

由於kube-apiserver的日誌中同樣無法提取出能夠幫助解決問題的有用資訊，起初我們只能猜測可能是kube-apiserver的快取更新異常導致的。正要從這個切入點解決問題的時候，有乙個詭異的問題建立的pod無法通過kubectl 查詢到那麼問題來了 kube api的list操作是沒有快取的，資料是kube-apiserver直接從etcd拉取返回給客戶端的，初步判斷可能是etcd這裡有問題

etcd是cap架構，乙個強一致性的kv儲存，在寫操作成功的情況下兩次請求不應該讀取到不一樣的資料，我們通過etcdctl直接查詢了etcd的集群狀態和集群資料，得到的結果是集群狀態正常 raftindex一致，觀察etcd的日誌也沒有發現報錯資訊，唯一可疑的地方是3個節點的dbsize差別比較大，接著我們又將client訪問的endpoint指定為不同節點位址來查詢每個key的數量，結果發現3個節點返回的key數量不一致，並且直接通過etcdctl查詢剛建立的pod，發現訪問某些endpoint可以查到該pod，而訪問其他endpoint則查不到至此，基本可以確定etcd集群的節點存在資料不一致現象

初步驗證

通常集群正常執行沒有外部變更，一般不會出現這麼嚴重的問題，查詢etcd集群近幾天的發布記錄時發現故障前一天對該集群的一次發布中，由於之前dbsize配置不合理導致db被寫滿集群無法寫入新的資料，為此運維人員更新了集群dbsize和compaction相關配置並且重啟了etcd 重啟後繼續對ectd手動執行了compact和defrag操作來壓縮db空間

通過上述場景我們基本可以初步判斷一下幾個可疑的觸發條件

1.dbsize滿

2.dbsize和compaction配置更新

3.compaction操作和defrag操作

4.重啟etcd

k8s一次滾動更新的異常

k8s灰度更新 k8s實現灰度發布

K8S的Deployment滾動公升級指令整理

K8S學習總結（一）

k8s一次滾動更新的異常

k8s灰度更新 k8s實現灰度發布

K8S的Deployment滾動公升級指令整理

K8S學習總結（一）

相關推薦