HDFS集群的平衡

2022-09-22 20:36:18 字數 795 閱讀 5931

摘自:檔案塊在集群中均勻分布的好處---hdfs能達到最佳工作效能,乙個負載不均衡的集群可能影響mapreduce的本地化優勢,為負載搞的資料節點帶來更大的壓力。

1. 選用預設的每個節點20個map來執行distcp來進行資料複製,可以避免不均衡的情況。總之讓map的數量多於集群中節點的數量。

2. 均衡器程式是hadoop的乙個守護程序,用來重新分布塊,具體做法是遵循塊副本放置策略(把塊副本放在不同機架上以減少資料丟失)的同時,把塊從使用過度的資料節點移到使用不足的資料節點。移動塊直到集群任務趨於平衡,這意味著每個資料節點的使用率(在節點上使用的空間佔節點整體負載能力的比率)於集群使用率(在集群上使用的空間佔集群整體負載能力的比率)之差要在指定百分比以下。使用%start -balancer.sh來啟動均衡器程式,-threshold引數指定百分比來保證集群的負載均衡。在任何時間,每個集群上只能執行乙個均衡器。均衡器一直執行,直到集群區域均衡為止。

3. 副本放置策略

第乙個block副本放在和client所在的node裡(如果client不在集群範圍內,則這第乙個node是隨機選取的,當然系統會嘗試不選擇哪些太滿或者太忙的node)。

第二個副本放置在與第乙個節點不同的機架中的node中(隨機選擇)。

第三個副本和第二個在同乙個機架,隨機放在不同的node中。

如果還有更多的副本就隨機放在集群的node裡。

hadoop的副本放置策略在可靠性(block在不同的機架)和頻寬(乙個管道只需要穿越乙個網路節點)中做了乙個很好的平衡。下圖是備份引數是3的情況下乙個管道的三個datanode的分布情況。

摘自:daniel的專欄

HDFS集群的平衡

檔案塊在集群中均勻分布的好處 hdfs能達到最佳工作效能,乙個負載不均衡的集群可能影響mapreduce的本地化優勢,為負載搞的資料節點帶來更大的壓力。1.選用預設的每個節點20個map來執行distcp來進行資料複製,可以避免不均衡的情況。總之讓map的數量多於集群中節點的數量。2.均衡器程式是h...

HDFS集群的平衡

檔案塊在集群中均勻分布的好處 hdfs能達到最佳工作效能,乙個負載不均衡的集群可能影響mapreduce的本地化優勢,為負載搞的資料節點帶來更大的壓力。1.選用預設的每個節點20個map來執行distcp來進行資料複製,可以避免不均衡的情況。總之讓map的數量多於集群中節點的數量。2.均衡器程式是h...

HDFS 集群的機架感知

大資料專欄 主目錄3 擴充套件 hadoop 在設計時考慮到資料的安全,資料檔案預設在 hdfs 上存放三份。顯然,這三份副本肯定不能儲存在同乙個伺服器節點。那怎麼樣的儲存策略能保證資料既安全也能保證資料的訪問高效呢?hdfs 分布式檔案系統的內部有乙個副本存放策略 以預設的副本數 3 為例 第乙個...