CDH節點宕機恢復記錄

2021-10-23 01:43:19 字數 1174 閱讀 9687

由於意外,集群中的乙個節點系統壞了,重灌系統後,把該節點新增集群中,恢復hdfs資料。

思路:主要問題是把hdfs的資料恢復,由於hdfs的機制very good,只要把節點從集群中刪掉,再新增進集群中,配置hdfs對應目錄就好。

背景:安裝的cdh6.2,使用cm介面進行管理

流程:1.從集群中刪除節點,刪除的時候,勾選解除授權。

2.從主機管理中刪除節點

3.走集群新增新節點流程

節點上的一些對應安裝配置(略過)

在cm介面中新增新節點

警告一頓猛如虎的操作:

而後面生成的/data2/hadoop/hdfs/data目錄許可權都是root,修改所屬使用者和使用者組即可(如果許可權不一致,修改確保跟正常啟動的資料目錄許可權保持一致),執行如下命令:

新節點ok,hdfs沒有任何問題,沒有丟塊。

節點恢復後,hdfs出現了壞塊

可以使用hdfs fsck / -delete刪除hdfs上的壞塊,此操作可能會丟失資料,慎用,本場景下不得不用,如果有更好的解決方法,歡迎指點。

執行hdfs fsck /,發現狀態已經變成healthy

當然,這只是資料允許丟失的情況下可以使用的一種簡單粗暴的方法,生產上還是無法使用這種直接刪資料的方法的

那麼生產上應該怎麼處理這種情況呢?

(1)首先hdfs fsck -files -blocks -locations找到資料塊的位置和丟失的資料資訊

(2)hdfs debug recoverlease [-path

] [-retries ] 用這個命令恢復上面路徑丟失的資料塊,最後乙個引數是重試次數

上面方法**於

CDH集群主節點宕機恢復

公司的開發集群在週末莫名其妙的主節點hadoop 1的啟動固態盤掛了,由於cm hdfs的namenode hbase的master都安裝在hadoop 1,導致了整個集群都無法使用,好在資料不在啟動盤。hadoop 1的系統必須重灌,但是不能重灌集群,因為要將之前的資料全部保留恢復,所以只能通過集...

CDH大資料節點宕機測試

集群元件說明 目前集群中安裝了若干大資料相關元件,包括hdfs hbase hive等儲存相關元件與flume spark kafka等資料採集與處理相關元件。集群主機說明 目前集群中有5臺主機,為同一臺宿主機上的5臺虛擬機器。為確保hdfs副本正常分布,故主機cdh1 cdh2 cdh3的機架設定...

Galera Cluster中節點異常宕機排查

在group replication發布之前,mysql官方複製有非同步 半同步。當時彌補全同步的方案,大多數公司會選擇galera cluster,主要有percona server的pxc和mariadb的mgc兩種版本,而且都嵌入到各自的版本中。本文針對客戶生產環境使用galera clust...