HDFS讀寫流程詳細解讀

在這裡插入描述

讀取檔案過程簡述：

1、客戶端向namenode發起讀資料請求；

2、namenode響應請求並告訴客戶端要讀的檔案的資料塊位置（存在哪個datanode上）；

3、客戶端到對應datanode讀取資料，當資料讀取到達末端，關閉與這個datanode的連線，並查詢下乙個資料塊，直到檔案資料全部讀完；

4、最後關閉輸出流。

讀取檔案過程詳細解讀：

在這裡插入描述

寫檔案過程簡述：

1、客戶端向namenode發起寫資料請求；

2、namenode相應請求（namenode會檢查要建立的檔案是否已經存在，建立者是否有許可權，成功會建立乙個記錄，失敗會報異常）；　

3、客戶端將檔案進行切片（分成資料塊），然後上傳資料塊，按照乙個乙個的形式進行傳送，每個資料塊都要寫到三datanode上；

4、成功後datanode會返回乙個確認佇列給客戶端，客戶端進行效驗，然後客戶端上傳下乙個資料塊到datanode，直到所有資料塊寫入完成；

5、當所有資料塊全部寫入成功後，客戶端會向namenode傳送乙個反饋並關閉資料流。

寫檔案過程詳細解讀：

1、使用 hdfs 提供的客戶端 client，向遠端的 namenode 發起 rpc 請求；

2、namenode 會檢查要建立的檔案是否已經存在，建立者是否有許可權進行操作，成功則會為檔案建立乙個記錄，否則會讓客戶端丟擲異常；

3、當客戶端開始寫入檔案的時候，客戶端會將檔案切分成多個 packets，並在內部以資料佇列「data queue（資料佇列）」的形式管理這些 packets，並向 namenode 申請 blocks，獲取用來儲存 replicas 的合適的 datanode 列表，列表的大小根據 namenode 中 replication 的設定而定；

4、開始以 pipeline（管道）的形式將 packet 寫入所有的 replicas 中。客戶端把 packet 以流的方式寫入第乙個 datanode ，該 datanode 把該 packet 儲存之後，再將其傳遞給在此 pipeline 中的下乙個 datanode ，直到最後乙個 datanode ，這種寫資料的方式呈流水線的形式；

5、最後乙個 datanode 成功儲存之後會返回乙個 ack packet（確認佇列），在 pipeline 裡傳遞至客戶端，在客戶端的開發庫內部維護著"ack queue"，成功收到 datanode 返回的 ack packet 後會從"data queue"移除相應的 packet；

6、如果傳輸過程中，有某個 datanode 出現了故障，那麼當前的 pipeline 會被關閉，出現故障的 datanode 會從當前的 pipeline 中移除，剩餘的 block 會繼續剩下的 datanode 中繼續以 pipeline 的形式傳輸，同時 namenode 會分配乙個新的 datanode ，保持 replicas 設定的數量；

7、客戶端完成資料的寫入後，會對資料流呼叫 close()方法，關閉資料流

HDFS讀寫流程詳細解讀

HBase讀寫流程詳細解讀

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

HDFS讀寫流程詳細解讀

HBase讀寫流程詳細解讀

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

相關推薦