HDFS(二) 資料讀寫流程

2021-10-12 21:18:05 字數 792 閱讀 4596

----尚矽谷學習筆記整理

1)客戶端通過 distributed filesystem 模組向namenode請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在

2)namenode返回是否可以上傳

3)客戶端請求第乙個block上傳到哪幾個datanode伺服器上

4)namenode返回三個datanode節點,分別為dn1、dn2、dn3

5)namenode通過fsdataoutputstream模組請求dn1上傳資料,dn1收到請求會繼續呼叫dn2,然後dn2呼叫dn3,整個通訊管道建立完成

6)dn1、dn2、dn3逐級應答客戶端

7)客戶端開始往dn1上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,dn1收到乙個就會傳給dn2、dn2傳給dn3,dn1每傳乙個packet會放入乙個應答佇列等待應答

8)當乙個block傳輸完成之後,客戶端再次請求namenode上傳第二個block的伺服器,重複執行3-7步驟

2)挑選一台datanode(就近原則,然後隨機)伺服器,請求讀資料

3)datanode開始傳輸資料給客戶端(從磁碟裡讀取資料輸入流,以packet為單位來做校驗)

4)客戶端以packet為單位接收,先在本地快取,然後寫入目標檔案。

hdfs讀寫流程 HDFS 讀寫流程(詳解)

hdfs hadoop distributed file system 是gfs的開源實現。1 優點 因為有多個副本,可以保證資料可靠,容錯性高 計算向資料移動,適用於批處理 適合大資料處理,gb tb pb級資料,百萬以上的檔案,十萬以上的節點 可以構建在廉價機器上,通過多副本提高可靠性 2 缺點...

hdfs讀寫流程 HDFS 檔案讀寫流程

開啟分布式檔案 呼叫分布式檔案 distributedfilesystem.open 方法 定址請求 從 namenode 處得到 datanode 的位址,distributedfilesystem使用 rpc 方式呼叫了namenode,namenode 返回存有該副本的datanode 位址,...

HDFS讀寫資料流程

步驟 1 客戶端通過 distributed filesystem 模組向namenode請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在。2 namenode返回是否可以上傳。3 客戶端請求第乙個 block 上傳到哪幾個 datanode 伺服器上。4 namenode返回3...