HDFS寫檔案解析

client通過distributedfilesystem物件呼叫create()方法建立檔案，實際上通過rpc呼叫了namenode的方法。

namenode收到client的請求之後，執行各種檢查（1.確認要傳檔案目前在hdfs上不存在，2.client具有寫的許可權）如果通過則會為新檔案建立一條記錄,並返回乙個fsdataoutputstream物件，該物件負責datanode和namenode通訊。若檢查未通過則丟擲ioexception。

客戶端拿到流後，進行檔案寫入。stream會將資料分成乙個個資料報（packet

）並寫入內部佇列，稱為資料佇列（data queue）。datastreamer處理資料佇列，它的責任是根據datanode列表來要求namenode分配適合的新塊來儲存副本。這一組datanode構成乙個管道（pipeline）

--- 如果存在多個datanode，那麼包會在datanode之間進行流式**。一直到最後乙個節點

dfsoutputstream也維護著乙個確認佇列（ack queue）。收到管道中所有datanode確認資訊後，該資料報才會從確認佇列中刪除。

所有的資料塊都寫完以後，close流。並且等待namenode返回確認資訊。

上述是在正常寫檔案

，並且沒有發生故障的理想情況下。

補充：如果資料寫入期間datanode發生故障，則執行以下操作：

1.關閉管道（pipeline）

2.將佇列中的所有資料報都新增回資料佇列的最前端，確保故障節點下游的datanode不會漏掉任何乙個資料庫包

3.為儲存在另一節點的當前資料塊指定乙個新的標識，並將標識發給namenode. 便於故障節點恢復後可以刪除其原來已經上傳的部分資料。

4.從管道中刪除故障節點，並把資料塊繼續傳輸到其他正常datanode節點。namenode發現副本數不足時，會在另乙個節點上建立乙個新的副本。

HDFS寫檔案解析

HDFS寫檔案流程

HDFS 寫檔案流程

HDFS寫檔案的過程

HDFS寫檔案解析

HDFS寫檔案流程

HDFS 寫檔案流程

HDFS寫檔案的過程

相關推薦