HDFS實現其高可靠性的策略及機制

2021-08-11 02:42:33 字數 1020 閱讀 4272

分布式檔案系統(hdfs)的高可靠性主要是由多種策略及機制共同作用實現的。

主要有:

可以指定資料檔案的副本數量,預設是3;

保證所有的資料塊都有副本,不至於在乙個datanode宕機後,資料的丟失。

集群一般放在不同機架上,機架間頻寬要比機架內頻寬要小;

hdfs具有「機架感知」能力,它能自動實現在本機架上存放乙個副本,然後在其它機架再存放另一副本,這樣可以防止機架失效時資料丟失,也可以提高頻寬利用率。

namenode週期性從datanode接收心跳訊號和塊報告,namenode根據塊報告驗證元資料;

namenode對沒有按時傳送心跳的datanode會被標記為宕機,不會再給它任何i/o請求;

datanode失效造成副本數量下降,並且低於預先設定的閾值,namenode會檢測出這些資料塊,並在合適的時機迕行重新複製;

引發重新複製的原因還包括資料副本本身損壞、磁碟錯誤,複製因子被增大等。

namenode啟動時會先經過乙個「安全模式」階段,安全模式階段不會產生資料寫;

在安全模式階段namenode收集各個datanode的報告,當資料塊達到最小副本數以上時,會被認為是「安全」的;

在一定比例(可設定)的資料塊被確定為「安全」後,再過若干時間,安全模式結束;

當檢測到副本數不足的資料塊時,該塊會被複製直到達到最小副本數。

在檔案建立時,每個資料塊都產生校驗和,校驗和會儲存在.meta檔案內;

客戶端獲取資料時可以檢查校驗和是否相同,從而發現資料塊是否損壞;

如果正在讀取的資料塊損壞,則可以繼續讀取其它副本。

刪除檔案時,其實是放入**站/trash,**站裡的檔案可以快速恢復;

可以設定乙個時間閾值,當**站裡檔案的存放時間超過這個閾值,就被徹底刪除,並且釋放占用的資料塊。

映像檔案和事務日誌是namenode的核心資料,可以配置為擁有多個副本;

副本會降低namenode的處理速度,但增加安全性。

支援儲存某個時間點的映像,需要時可以使資料重返這個時間點的狀態;

HDFS實現其高可靠性的策略及機制

分布式檔案系統 hdfs 的高可靠性主要是由多種策略及機制共同作用實現的。主要有 可以指定資料檔案的副本數量,預設是3 保證所有的資料塊都有副本,不至於在乙個datanode宕機後,資料的丟失。集群一般放在不同機架上,機架間頻寬要比機架內頻寬要小 hdfs具有 機架感知 能力,它能自動實現在本機架上...

HDFS高可靠性分布式儲存系統解決方案

1.hdfs 簡介 hdfs,為hadoop這個分布式計算框架提供高效能 高可靠 高可擴充套件的儲存服務。hdfs的系統架構是典型的主 從?架構,早期的架構包括乙個主節點namenode和多個從節點datanode。namenode是整個檔案系統的管理節點,也是hdfs中最複雜的乙個實體,它維護著h...

HDFS高可靠性分布式儲存系統解決方案

1.hdfs 簡介 hdfs,為hadoop這個分布式計算框架提供高效能 高可靠 高可擴充套件的儲存服務。hdfs的系統架構是典型的主 從?架構,早期的架構包括乙個主節點namenode和多個從節點datanode。namenode是整個檔案系統的管理節點,也是hdfs中最複雜的乙個實體,它維護著h...