CDH節點宕機恢復記錄

由於意外，集群中的乙個節點系統壞了，重灌系統後，把該節點新增集群中，恢復hdfs資料。

思路：主要問題是把hdfs的資料恢復，由於hdfs的機制very good，只要把節點從集群中刪掉，再新增進集群中，配置hdfs對應目錄就好。

背景：安裝的cdh6.2，使用cm介面進行管理

流程：1.從集群中刪除節點，刪除的時候，勾選解除授權。

2.從主機管理中刪除節點

3.走集群新增新節點流程

節點上的一些對應安裝配置（略過）

在cm介面中新增新節點

警告一頓猛如虎的操作：

而後面生成的/data2/hadoop/hdfs/data目錄許可權都是root，修改所屬使用者和使用者組即可（如果許可權不一致，修改確保跟正常啟動的資料目錄許可權保持一致），執行如下命令：

新節點ok，hdfs沒有任何問題，沒有丟塊。

節點恢復後，hdfs出現了壞塊

可以使用hdfs fsck / -delete刪除hdfs上的壞塊，此操作可能會丟失資料，慎用，本場景下不得不用，如果有更好的解決方法，歡迎指點。

執行hdfs fsck /，發現狀態已經變成healthy

當然，這只是資料允許丟失的情況下可以使用的一種簡單粗暴的方法，生產上還是無法使用這種直接刪資料的方法的

那麼生產上應該怎麼處理這種情況呢？

（1）首先hdfs fsck -files -blocks -locations找到資料塊的位置和丟失的資料資訊

（2）hdfs debug recoverlease [-path

] [-retries ] 用這個命令恢復上面路徑丟失的資料塊，最後乙個引數是重試次數

上面方法**於

CDH集群主節點宕機恢復

公司的開發集群在週末莫名其妙的主節點hadoop 1的啟動固態盤掛了，由於cm hdfs的namenode hbase的master都安裝在hadoop 1，導致了整個集群都無法使用，好在資料不在啟動盤。hadoop 1的系統必須重灌，但是不能重灌集群，因為要將之前的資料全部保留恢復，所以只能通過集...

CDH大資料節點宕機測試

集群元件說明目前集群中安裝了若干大資料相關元件，包括hdfs hbase hive等儲存相關元件與flume spark kafka等資料採集與處理相關元件。集群主機說明目前集群中有5臺主機，為同一臺宿主機上的5臺虛擬機器。為確保hdfs副本正常分布，故主機cdh1 cdh2 cdh3的機架設定...

Galera Cluster中節點異常宕機排查

在group replication發布之前，mysql官方複製有非同步半同步。當時彌補全同步的方案，大多數公司會選擇galera cluster，主要有percona server的pxc和mariadb的mgc兩種版本，而且都嵌入到各自的版本中。本文針對客戶生產環境使用galera clust...

CDH節點宕機恢復記錄

CDH集群主節點宕機恢復

CDH大資料節點宕機測試

Galera Cluster中節點異常宕機排查

相關推薦