ceph 集群故障恢復

2022-02-26 06:21:14 字數 1844 閱讀 6634

集群規劃配置

master1    172.16.230.21

master2    172.16.230.22

master3  172.16.230.23

node1  172.16.230.26

node2  172.16.230.27

node3  172.16.23028

一、 模擬monitor 宕機狀態

2. 測試刪除monitor節點, 把master3 關機

發現 master3 節點已經宕機, 具體操作步驟,需要刪除配置檔案中master3 資訊,同步ceph.conf 配置檔案 ,然後命令刪除master3

3. 修改ceph.conf 配置檔案,刪除 monitor3資訊

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/[

global

]fsid = 574c4cb4-50f8-4d80-a61e-25eadd0c567d

mon_initial_members =master1, master2

mon_host = 172.16.230.21,172.16.230.22

auth_cluster_required =cephx

auth_service_required =cephx

auth_client_required =cephx

public_network = 172.16.230.0/24

osd_pool_default_size = 2

mon_pg_warn_max_per_osd = 1000

osd pool

default pg num = 256

osd pool

default pgp num = 256

mon clock drift allowed = 2

mon clock drift warn backoff = 30

# 刪除 mon_initial_members 中的master3 和 mon_host 中

172.16.230.23

4 . ceph.conf 同步到其他節點

ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3
5. 使用remove命令 刪除節點

[root@master1 cluster-ceph]# ceph mon remove master3

removing mon.master3 at

172.16.230.23:6789/0, there will be 2 monitors

6.  檢視ceph集群狀態 

二.新增monitor3 到ceph集群中(ceph-deploy)

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/

[root@master1 cluster-ceph]# ceph-deploy mon create master3

同步ceph.conf 到集群各個節點

ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3
檢視集群狀態

參考 

ceph儲存 ceph集群osd故障自我檢測

心跳是用於osd節點間檢測對方是否故障的,以便及時發現故障節點進入相應的故障處理流程。故障檢測需要在故障的發現時間和心跳帶來的負載之間做權衡,如果心跳頻率太高則過多的心跳報文會影響系統效能,如果心跳頻率過低則會延長發現故障節點的時間,從而影響系統的可用性。在大規模部署的場景中,如果任意兩個osd節點...

Ceph 手動搭建ceph集群

hostname ipmon id 磁碟快journal ceph1 192.168.1.1 0 dev sdb2 dev sdb1 ceph2 192.168.1.2 1 dev sdb2 dev sdb1 ceph3 192.168.1.3 2 dev sdb2 dev sdb1 使用yum來安...

Ceph基礎之搭建ceph集群

8 更新源 yum update ysetenforce 0 4 安裝ntp,在所有ceph節點上執行 2 用ceph deploy建立ceph集群mkdir etc ceph 生成乙個新的ceph集群,集群包括ceph配置檔案以及monitor的金鑰環。3 安裝ceph二進位制軟體包ceph de...