HDFS資料讀取過程以及底層原理

讀取：

原理：在hadoop裡面有乙個最初的抽象基類叫filesystem，可以去繼承這個filesystem抽象基類去實現很多具體的子類。例如去繼承filesystem實現http方式訪問相關檔案、實現ftp方式進行讀寫檔案，以及繼承filesystem實現distributedfilesystem類。

(1)filesystem的常用方法：open、read、close、create

(2)open方法一般是建立乙個輸入流(讀檔案的時候必須要先建立輸入流)，返回fsdatainputstream物件。fsdatainputstream物件裡面封裝了乙個dfsinputstream(針對hdfs的實現)

(3)create方法是會建立乙個輸出流，返回的是fsdataoutputstream物件。

(4)filesystem.get(new configuration()) 這個**作用是把hdfs-site.xml和core-site.xml兩個配置檔案載入進來、重點讀取fs.defaultfs。

(5)filesystem fs = filesystem.get(new configuration()) 裡面的fs是hdfs的物件。

(6)具體和名稱節點、資料節點進行訪問的是dfsinputstream，不是fsdatainputstream。但是使用者程式設計只能看見fsdatainputstream，因為fsdatainputstream裡面封裝了dfsinputstream。

即：