etcd節點故障處理

2022-07-03 11:15:10 字數 3759 閱讀 8642

問題:巡檢發現k8s集群的etcd集群狀態不對,其中有乙個節點不健康,現象如下:

而且查詢etcd日誌沒有太多報錯資訊,時間和證書都是正常的,而且也沒有防火牆問題,於是開始進行如下操作

1.將有故障的etcd節點remove出集群:

由上面資訊可知,有故障的etcd節點為etcd-2這個,對應etcd-3這個name也就是122這一台機器

2.第一步已經將有故障的etcd節點etcd-2剔除了集群,開始操作etcd-3這個節點,刪除etcd資料,然後將etcd配置檔案集群資訊由new修改為existing

# rm -rf /var/lib/etcd/default.etcd/member/

修改etcd配置檔案,將下面new修改為:

修改前:

etcd_initial_cluster_state="

new"

修改後:

etcd_initial_cluster_state="

existing

"

3.然後將etcd-3節點加入到集群:

然後檢視集群列表:

4.重啟etcd故障節點:

[root@k8s-master3 ~]# systemctl start etcd

[root@k8s-master3 ~]# systemctl status etcd

● etcd.service -etcd server

loaded: loaded (/usr/lib/systemd/system/etcd.service; enabled; vendor preset: disabled)

active: active (running) since 日

2021-02-28

22:04:34 cst; 4s ago

最後檢視k8s集群的etcd:

[root@k8s-master1 ~]# kubectl get cs

name status message error

scheduler healthy ok

controller-manager healthy ok

etcd-2 healthy

etcd-0 healthy

etcd-1 healthy

ETCD節點故障恢復

我在微服務組裡面主要負責配置中心的構建,我們的配置中心使用到了etcd。在我們的內網環境中搭建了三個節點的etcd,不過這三個節點的etcd都搭建在同一臺機器上。後來機器資源不夠了系統直接kill了etcd,導致內網的etcd三個節點全部掛掉了。剛開始想逐個啟動就完事了,但是按照之前的data di...

Etcd 新增節點

參考部落格 測試系統 centos 6.5 測試etcd版本 3.1.6 測試分布式etcd 節點個數 3 etcd 新增節點測試 資源有限。我們先刪除乙個節點,再新增節點 新增節點 1.已處於健康狀態的節點終端傳送指令 etcdctl member add infra3 終端會返回 新增節點下次啟...

單節點etcd配置

cat etc etcd etcd.conf etcd data dir var lib etcd default.etcd 監聽url,用於與其他節點通訊 etcd listen peer urls 告知客戶端的url,也就是服務的url etcd listen client urls 表示監聽其...