CDH集群節點更換硬碟實施方案

2022-03-21 18:13:05 字數 1259 閱讀 6254

背景

因cdh資料互動比較頻繁,硬碟的消耗較快,硬碟正常使用3年後容易出現硬碟壞道,為了避免硬碟壞道過多導致影響業務,經在測試環境中測試更換cdh集群節點硬碟後資料塊未出現丟失現象。

實施步驟(測試環境node5節點進行測試):

查詢異常硬碟掛載目錄

目前是望京cdh平台node9的/dev/sdb1硬碟有壞道,所掛載的目錄是/dfs/dn2

web操作該節點去掉對應目錄

進入node9節點的datanode服務的配置介面去掉/dfs/dn2目錄

重新整理集群(過期配置)

在重新整理集群過程中dn2的資料塊逐步向dn和dn1目錄複製

在重新整理集群過程中dn2的資料塊逐步向dn和dn1目錄複製

檢測在資料平衡過程中可觀察到資料塊丟失比例在逐步減少

檢測方法:hadoop fsck /

平衡完成後資料塊檢測正常

研發測確認是否有資料丟失

更換硬碟,web重新增加dn2目錄

更換新硬碟,重新掛載dn2目錄後,dn2目錄歸屬root許可權,需調整為hdfs許可權

重新重新整理集群(詳見2.3)

檢查資料塊是否有丟失

CDH集群 HDFS資料儲存 更換目錄

cdh集群中,資料檔案位置預設在 dfs dn 中,這個目錄所屬的碟符是 但是 只有50g大小,還有其他各種檔案的日誌什麼的,空間很緊張。今天啟動指令碼上傳檔案到hive,因為空間問題一直報錯。查閱了資料,需要將cdh集群 hdfs資料儲存 更換目錄。通過命令檢視各個碟符 占用情況 1.定位思路 先...

CDH集群主節點宕機恢復

公司的開發集群在週末莫名其妙的主節點hadoop 1的啟動固態盤掛了,由於cm hdfs的namenode hbase的master都安裝在hadoop 1,導致了整個集群都無法使用,好在資料不在啟動盤。hadoop 1的系統必須重灌,但是不能重灌集群,因為要將之前的資料全部保留恢復,所以只能通過集...

CDH集群重啟

首先在cdh集群的7180的埠,將cloudera的監控服務和整個集群都停掉,然後切換到命令列中,手動停止cloudera scm agent角色和cloudera scm server角色 cd opt cloudera manager cm 5.10.1 etc init.d cloudera ...