CDH大資料節點宕機測試

2022-09-15 13:42:17 字數 1703 閱讀 8413

集群元件說明:目前集群中安裝了若干大資料相關元件,包括hdfs、hbase、hive等儲存相關元件與flume、spark、kafka等資料採集與處理相關元件。

集群主機說明:目前集群中有5臺主機,為同一臺宿主機上的5臺虛擬機器。為確保hdfs副本正常分布,故主機cdh1、cdh2、cdh3的機架設定為「test1」,cdh4、cdh5的機架設定為「test2」

注:hadoop在設計時考慮到資料的安全與高效,資料檔案預設在hdfs上存放三份,儲存策略為:

第乙個副本放在其中一台節點中

第二個副本放置在與第乙個副本所在節點相同機架內的其它節點上

第三個副本放置在不同機架的節點上

在集群中某一台節點完全宕機的情況下,通過新增主機的方式,能夠恢復到集群原狀態。其中包括但不限於以下幾點:

1、 集群中所有資料正常不變,不丟失。

2、 集群中元件保證正常執行。

3、 新增主機正常執行,不出現異常。

我們選擇cdh3作為宕機主機,目前cdh3所執行的服務如下所示,在cdh3宕機後,我們需要將新增主機安裝同樣的服務以恢復集群。

注:集群中所有節點在測試前都最好打上快照,不要問我為什麼知道

三、節點刪除

1、 首先我們讓cdh3節點「宕機」,即將節點cdh3關機,集群呈現以下狀態

在「主機」中將cdh3宕機節點刪除,取消選中「跳過管理角色」,我們需要完成將此主機所有元件完全清除。

刪除成功後即顯示以下內容

然後我們將其從cm管理平台中刪除,即為徹底將其節點清除

在上述操作都完成後,目前集群中只剩下4個節點,且集群現狀如下

注:集群中oozie出現異常的原因為oozie server節點安裝在cdh3上,對本次測試影響不大,後續我們重新新增上即可

四、資料驗證

檢測一下hdfs中的資料健康情況,可以看到資料一切正常,並沒有因為cdh3的宕機而造成資料丟失和出現壞塊。

在刪除cdh3主機時,集群自動做了資料平衡,將cdh3中的副本資料全都恢復至其他節點中去了。

CDH節點宕機恢復記錄

由於意外,集群中的乙個節點系統壞了,重灌系統後,把該節點新增集群中,恢復hdfs資料。思路 主要問題是把hdfs的資料恢復,由於hdfs的機制very good,只要把節點從集群中刪掉,再新增進集群中,配置hdfs對應目錄就好。背景 安裝的cdh6.2,使用cm介面進行管理 流程 1.從集群中刪除節...

CDH集群主節點宕機恢復

公司的開發集群在週末莫名其妙的主節點hadoop 1的啟動固態盤掛了,由於cm hdfs的namenode hbase的master都安裝在hadoop 1,導致了整個集群都無法使用,好在資料不在啟動盤。hadoop 1的系統必須重灌,但是不能重灌集群,因為要將之前的資料全部保留恢復,所以只能通過集...

大資料平台CDH和HDP

cdh cloudera s distribution,including apache hadoop 是hadoop眾多分支中的一種,由cloudera維護,基於穩定版本的apache hadoop構建,並整合了很多補丁,可直接用於生產環境。cloudera manager則是為了便於在集群中進行...