Vsphere集群報主機隔離故障

2021-10-10 17:25:51 字數 902 閱讀 4779

收到告警工單,vc報主機32與某集群中的master主機丟失聯絡,處於不同的網路分割槽;檢視vc事件臺,發現告警如下:

故障集群有4臺主機,分別為2,3,4,5主機。

1、網路隔離:即集群中master主機可以通過共享儲存檢查到某從屬主機存活,但是無法通過管理網路進行ping監測,且從屬主機無法ping通故障隔離ip位址,故障主機**無響應,從屬主機宣告主機被網路隔離。一般只要有一條上行鏈路正常,很少出現網路隔離

2、網路分割槽:集群中從屬主機失去與首選主機(主**主機)的網路連線,即通過管理網路無法ping通;

3、從事件記錄裡看,首先32主機ha**報可用性無法訪問,此時主**主機為34;隨後報出34主**master主機與集群其他主機管理網路不通;接著報出32主機與集群中其他主機處於不通的網路分割槽中;第4步報32主機已從34主**【分割槽】;5報32主機無法與隔離位址89.254通訊;6報32主機ha可用性狀況為:網路已隔離,主機上虛擬機器斷開,主機無響應,最後32主機恢復**狀態和從屬角色,恢復連線,相關虛擬機器啟動,

3、從事件中檢視,32主機網路管理埠處於down狀態;

4、登入故障主機ipmi管理位址,檢查確認網路硬體介面狀態;

5、vc網路的交換機中檢查上鏈線路埠狀態。

將故障主機置於維護模式,故障埠置於備用,或者直接將故障主機從當前集群中臨時剔除,當恢復後重新加入;完成後聯絡主機運維同事檢查32主機網絡卡介面狀態。

Vsphere集群維護經驗

結構簡述 用十台伺服器做的vsphere的集群,其中使用了超融合將硬碟組合。三個千兆網口,乙個為管理網口,另外兩個為業務網口,兩個萬兆光口,做磁碟交換。問題再現 有一台伺服器下線,因為主機板有問題。當這台伺服器修好並重新上線之後,有檢測出另外一台伺服器的主機板也有問題。從管理端將伺服器置為維護模式後...

配置集群主機的互信任關係

首先,分別在 2個節點執行以下命令 mkdir ssh chmod 700 ssh ssh keygen t rsa ssh keygen t dsa 然後,在節點 dbtest1 執行以下命令 cat ssh id rsa.pub ssh authorized keys cat ssh id ds...

一台Linux主機搭建kafka集群

具體看 wget 0.1 kafka 2.11 0.9 0.1.tgz tar xzf kafka 2.11 0.9 0.0.tgzkafka broker配置檔案修改 修改kafka根目錄下的config server.propertiesbroker.id 0 整個集群內唯一id號,整數,一般從...