HDFS讀寫流程分析

2021-10-10 21:46:32 字數 844 閱讀 1449

一 hdfs讀流程

client跟namenode通訊查詢元資料,namenode通過查詢元資料,找到檔案塊所在的datanode伺服器

挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流

datanode開始傳送資料(從磁碟裡面讀取資料放入流,以packet為單位來做校驗,大小為64k)

客戶端以packet為單位接收,現在本地快取,然後寫入目標檔案

二 hdfs寫流程

客戶端跟namenode通訊請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在,使用者是否有許可權等

namenode返回是否可以上傳

client請求第乙個 block該傳輸到哪些datanode伺服器上

namenode返回3個datanode伺服器abc

client請求3臺dn中的一台a上傳資料(本質上是乙個rpc呼叫,建立pipeline),a收到請求會繼續呼叫b,然後b呼叫c,將整個pipeline建立完成,逐級返回客戶端

client開始往a上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,a收到乙個packet就會傳給b,b傳給c;a每傳乙個packet會放入乙個應答佇列等待應答

當乙個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。

hdfs讀寫流程 HDFS 讀寫流程(詳解)

hdfs hadoop distributed file system 是gfs的開源實現。1 優點 因為有多個副本,可以保證資料可靠,容錯性高 計算向資料移動,適用於批處理 適合大資料處理,gb tb pb級資料,百萬以上的檔案,十萬以上的節點 可以構建在廉價機器上,通過多副本提高可靠性 2 缺點...

hdfs讀寫流程 HDFS 檔案讀寫流程

開啟分布式檔案 呼叫分布式檔案 distributedfilesystem.open 方法 定址請求 從 namenode 處得到 datanode 的位址,distributedfilesystem使用 rpc 方式呼叫了namenode,namenode 返回存有該副本的datanode 位址,...

hdfs讀寫流程

1.client發起檔案上傳請求 通過rpc和namenode建立連線,namenode檢查目標檔案是否存在,檢查父目錄是否存在,檢查使用者是否有許可權,返回是否可以上傳 2.client請求第乙個block該傳輸到那些datanode伺服器上 3.namenode根據配置檔案中指定的備份數量及機架...