07 HDFS主要流程之客戶端讀流程

主要流程如下圖所示

8. hdfs主要流程之客戶端讀流程.png

分為如下幾個步驟

開啟hdfs檔案

hdfs客戶端首先呼叫distributedfilesystem.open()方法開啟hdfs檔案，這個方法在底層會呼叫dfsclient.open()方法，該方法會返回乙個hdfsdatainputstream物件用於讀取資料塊。hdfsdatainputstream其實是乙個dfsinputstream的裝飾類，真正進行資料塊讀取操作的是dfsinputstream物件

從namenode獲取datanode位址

在dfsinputstream的構造方法中，會呼叫clientprotocol.getlocatedblocks()方法向namenode獲取該hdfs檔案起始位置資料塊的位置資訊，namenode返回的資料塊的儲存位置是按照與客戶端的距離遠近排序的，所以dfsinputstream可以選擇乙個最優的datanode節點，然後與這個節點建立連線讀取資料塊

連線到datanode讀取資料塊

hdfs 客戶端通過呼叫dfsinputstream.read()方法從這個最優的datanode讀取資料塊，資料會議資料報(packet)為單位從datanode通過流式介面傳輸到客戶端。當達到乙個資料塊的末尾時，dfsinputstream就會再次呼叫clientprotocol.getlocatedblocks()獲取檔案下乙個資料塊的位置資訊，並建立和這個新的資料塊的最優節點之間的連線，然後hdfs客戶端就可以繼續讀取資料塊了。

關閉輸入流

當客戶端成功完成檔案讀取後，會通過hdfsdatainputstream.close()方法關閉輸入流。

客戶端讀取資料塊時，很有可能儲存這個資料塊的datanode出現異常，也就是無法讀取資料。出現這種情況時，dfsinputstream會切換到另乙個儲存了這個資料塊副本的datanode，然後讀取資料，同時，資料塊的應答包中不僅包含了資料，還包含了校驗值。hdfs客戶端接收到資料應答包時，會對資料進行校驗，如果出現校驗錯誤，也就是datanode上的這個資料塊副本出現了損壞，hdfs客戶端會通過clientprotocol.reportbadblocks()向namenode匯報這個損壞的資料塊副本，同時dfsinputstream會嘗試從其他datanode讀取這個資料塊。

07 HDFS主要流程之客戶端讀流程

09 HDFS主要流程之客戶端追加資料流程

HDFS客戶端讀寫流程及checkpoint

hdfs客戶端操作

07 HDFS主要流程之客戶端讀流程

09 HDFS主要流程之客戶端追加資料流程

HDFS客戶端讀寫流程及checkpoint

hdfs客戶端操作

相關推薦