HDFS詳細介紹

2021-07-05 11:59:39 字數 1117 閱讀 9766

hdfs:(hadoop distributed file system)分布式檔案系統,提供高吞吐量的應用程式資料訪問,對外部客戶機而言,hdfs 就像乙個傳統的分級檔案系統。可以建立、刪除、移動或重新命名檔案,等等。但是 hdfs 的架構是基於一組特定的節點構建的,這是由它自身的特點決定的。這些節點包括 namenode(僅乙個),它在 hdfs 內部提供元資料服務;datanode,它為 hdfs 提供儲存塊。由於僅存在乙個 namenode,因此這是 hdfs 的乙個缺點(單點失敗)。

儲存在 hdfs 中的檔案被分成塊,然後將這些塊複製到多個計算機中(datanode)。這與傳統的 raid 架構大不相同。塊的大小(通常為 64mb)和複製的塊數量在建立檔案時由客戶機決定。namenode 可以控制所有檔案操作。hdfs 內部的所有通訊都基於標準的 tcp/ip 協議。

hdfs基本概念介紹

1、block:hdfs預設的基本儲存單位是64m的資料塊,和普通檔案系統相同的是,hdfs中的檔案是被分成64m一塊的資料塊儲存的。 不同於普通檔案系統的是,hdfs中,如果乙個檔案小於乙個資料塊的大小,並不占用整個資料塊儲存空間。

2、元資料節點(namenode)和資料節點(datanode)

元資料節點儲存內容:

a、主要用來管理檔案系統的命名空間,其將所有的檔案和資料夾的元資料儲存在乙個檔案系統樹中。 這些資訊也會在硬碟上儲存成以下檔案:命名空間映象(namespace image)及修改日誌(edit log)

b、其還儲存了乙個檔案包括哪些資料塊,分布在哪些資料節點上。然而這些資訊並不儲存在硬碟上,而是在系統啟動的時候從資料節點收集而成的。

資料節點儲存內容

真正儲存資料的地方。客戶端(client)或者元資料資訊(namenode)可以向資料節點請求寫入或者讀出資料塊。 其週期性的向元資料節點回報其儲存的資料塊資訊。

3、從元資料節點(secondary namenode)

從元資料節點並不是元資料節點出現問題時候的備用節點,它和元資料節點負責不同的事情。 其主要功能就是週期性將元資料節點的命名空間映象檔案和修改日誌合併,以防日誌檔案過大。這點在下面會相信敘述。 合併過後的命名空間映象檔案也在從元資料節點儲存了乙份,以防元資料節點失敗的時候,可以恢復。

Hadoop離線基礎總結 HDFS詳細介紹

分布式檔案系統設計思路 為了解決資料丟失的問題,引入副本機制,保證資料不會丟失 如果對檔案進行切塊儲存,那麼元資料資訊又要繼續變化 blk元資料資訊的記錄 blk 00001 node01 node03 export servers blk 00001 blk 00002 node02 node01...

HDFS結構介紹

hdfs hadoop distributed file system block 見圖 hdfs把檔案劃分成block儲存在不同節點上 預設128m 以前是64m,今後可能會變為256m dfs.blocksize屬性 hdfs site.xml 該屬性應該由檔案大小的數值分布來決定,比如80 的...

hdfs簡單介紹

1.hdfs前言 設計思想 分而治之 將大檔案 大批量檔案,分布式存放在大量伺服器上,以便於採取分而治之的方式對海量資料進行運算分析 在大資料系統中作用 為各類分布式運算框架 如 mapreduce,spark,tez,提供資料儲存服務 重點概念 檔案切塊,副本存放,元資料 2.hdfs的概念和特性...