HDFS讀寫流程個人珍藏總結

2021-10-24 16:21:50 字數 742 閱讀 3625

總結

客戶端(fs shell)向namenode請求上傳檔案,namenode檢查檔案是否存在,父目錄是否存在。

namenode返回客戶端是否可以上傳。

客戶端請求第乙個block上傳到哪幾個datanode上。

namenode返回客戶端3個datanode(假設)節點,dn1,dn2,dn3.

客戶端請求dn1上傳資料,dn1傳送請求給dn2,dn2發給dn3,(傳遞的本質時rpc呼叫,之間建立pipeline通訊管道)。

dn1,dn2,dn3逐級應答響應給客戶端。

客戶端開始上傳第乙個block到dn1(本質是先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位;dn1收到乙個parket就回傳給dn2,dn2傳給dn3;dn1每傳遞乙個parket會放入乙個應答佇列等待應答。

當第乙個block上傳完畢之後,客戶端會向namenode請求上傳第二個block的伺服器。

流程圖(示例):

客戶端挑選一台datanode(就近原則)伺服器,請求讀取資料。

datanode開始傳輸資料到客戶端。

客戶端以packet為單接收,先放入本地快取,然後寫入目標檔案。

面試要點,最好能背下來。

hdfs讀寫流程 HDFS 讀寫流程(詳解)

hdfs hadoop distributed file system 是gfs的開源實現。1 優點 因為有多個副本,可以保證資料可靠,容錯性高 計算向資料移動,適用於批處理 適合大資料處理,gb tb pb級資料,百萬以上的檔案,十萬以上的節點 可以構建在廉價機器上,通過多副本提高可靠性 2 缺點...

hdfs讀寫流程 HDFS 檔案讀寫流程

開啟分布式檔案 呼叫分布式檔案 distributedfilesystem.open 方法 定址請求 從 namenode 處得到 datanode 的位址,distributedfilesystem使用 rpc 方式呼叫了namenode,namenode 返回存有該副本的datanode 位址,...

hdfs讀寫流程

1.client發起檔案上傳請求 通過rpc和namenode建立連線,namenode檢查目標檔案是否存在,檢查父目錄是否存在,檢查使用者是否有許可權,返回是否可以上傳 2.client請求第乙個block該傳輸到那些datanode伺服器上 3.namenode根據配置檔案中指定的備份數量及機架...