Ceph排錯之osd之間心跳檢測沒有回應

ceph儲存集群是建立在八台伺服器上面，每台伺服器各有9個osd節點，上班的時候發現，四台伺服器上總共有8個osd節點在crush裡面顯示down狀態，重啟osd節點後恢復正常，但是之後會繼續顯示down狀態，實際上osd程序已經在執行中了。檢視osd節點日誌後發現，整個故障過程如下：

1. 單個osd節點接收不到另外一台伺服器節點上的所有osd心跳資訊，日誌記錄如下

2017-01-12 15:46:44.461929 7f913748c700 -1 error_msg osd.49 359369 heartbeat_check: no reply from osd.57 ever on either front or back, first ping sent 2017-01-12 15:18:09.046948 (cutoff 2017-01-12 15:46:24.461923)

2017-01-12 15:46:44.461946 7f913748c700 -1 error_msg osd.49 359369 heartbeat_check: no reply from osd.58 ever on either front or back, first ping sent 2017-01-12 15:18:09.046948 (cutoff 2017-01-12 15:46:24.461923)

2017-01-12 15:46:44.461967 7f913748c700 -1 error_msg osd.49 359369 heartbeat_check: no reply from osd.61 ever on either front or back, first ping sent 2017-01-12 15:18:09.046948 (cutoff 2017-01-12 15:46:24.461923)

2017-01-12 15:46:44.529580 7f838761f700 -1 error_msg osd.52 359367 heartbeat_check: no reply from osd.58 ever on either front or back, first ping sent 2017-01-12 15:17:14.579226 (cutoff 2017-01-12 15:46:24.529579)

2017-01-12 15:46:44.529596 7f838761f700 -1 error_msg osd.52 359367 heartbeat_check: no reply from osd.61 ever on either front or back, first ping sent 2017-01-12 15:17:14.579226 (cutoff 2017-01-12 15:46:24.529579)

2017-01-12 15:46:44.711242 7f83670f2700 -1 error_msg osd.52 359367 heartbeat_check: no reply from osd.58 ever on either front or back, first ping sent 2017-01-12 15:17:14.579226 (cutoff 2017-01-12 15:46:24.711242)

2. 單個osd節點接收不到相同伺服器上其他節點的osd心跳資訊；

3. 該osd節點被map標記為down狀態，日誌提示是：map wrongly mark me down；

2017-01-12 15:46:44.711242 7f715610e700  0 log_channel(cluster) log [wrn] : map e83 wrongly marked me down

排錯過程如下：

1. 首先第一反應應該是時鐘問題，時鐘不同步（環境用的是ntp），檢查發現確實時鐘不同步，錯誤的時區。然後解決時鐘問題，解決時鐘問題之後，還是不行，還是no reply from osd.***

2. 會不會是網路問題？

然後我選擇其中兩台有問題的伺服器，登陸上去檢視是不是網路不通，簡單ping了一下，發現可以，也沒有丟包現象。那就奇怪了，到底腫麼了？然後我突然想到防火牆，這可是很多linux服務的克星。關閉防火牆和selinux，ceph集群恢復正常！！！

附加關閉防火牆和selinux的命令：

關閉iptables：

關閉命令： service iptables stop

永久關閉防火牆：chkconfig iptables off

關閉selinux

永久性關閉（這樣需要重啟伺服器後生效）

# sed -i 's/selinux=enforcing/selinux=disabled/' /etc/selinux/config

臨時性關閉（立即生效，但是重啟伺服器後失效）

# setenforce 0 #設定selinux為permissive模式（即關閉）

# setenforce 1 #設定selinux為enforcing模式（即開啟）

Ceph排錯之osd之間心跳檢測沒有回應

ceph增加osd流程

ceph運維新增osd

ceph 新增osd失敗問題

Ceph排錯之osd之間心跳檢測沒有回應

ceph增加osd流程

ceph運維 新增osd

ceph 新增osd失敗問題

相關推薦

ceph運維新增osd