大資料入門 HDFS的特性

目標：掌握hdfs具備的特性

1、海量資料儲存： hdfs可橫向擴充套件，其儲存的檔案可以支援pb級別或更高階別的資料儲存。

2、高容錯性：資料儲存多個副本，副本丟失後自動恢復。可構建在廉價的機器上，實現線性擴充套件。當集群增加新節點之後，namenode也可以感知，進行負載均衡，將資料分發和備份資料均衡到新的節點上。

3、商用硬體：hadoop並不需要執行在昂貴且高可靠的硬體上。它是設計執行在商用硬體（廉價商業硬體）的集群上的。

4、大檔案儲存：hdfs採用資料塊的方式儲存資料，將資料物理切分成多個小的資料塊。所以再大的資料，切分後，大資料變成了很多小資料。使用者讀取時，重新將多個小資料塊拼接起來。

易懂總結：

1、海量資料儲存： hdfs可橫向擴充套件，其儲存的檔案可以支援pb級別資料。

2、高容錯性：節點丟失，系統依然可用，資料儲存多個副本，副本丟失後自動恢復。

可構建在廉價（與小型機大型機比）的機器上，實現線性擴充套件(隨著節點數量的增加，集群的儲存能力，計算能力隨

之增加)。 3、大檔案儲存：dfs採用資料塊的方式儲存資料，將乙個大檔案切分成多個小檔案，分布儲存。

目標：hdfs不擅長的場景

1、不能做到低延遲資料訪問：由於hadoop針對高資料吞吐量做了優化，犧牲了獲取資料的延遲，所以對於低延遲訪問資料的業務需求不適合hdfs。

2、不適合大量的小檔案儲存：由於namenode將檔案系統的元資料儲存在記憶體中，因此該檔案系統所能儲存的檔案總數受限於namenode的記憶體容量。根據經驗，每個檔案、目錄和資料塊的儲存資訊大約佔150位元組。因此，如果有一百萬個小檔案，每個小檔案都會佔乙個資料塊，那至少需要300mb記憶體。如果是上億級別的，就會超出當前硬體的能力。

3、修改檔案：。hdfs適合一次寫入，多次讀取的場景。對於上傳到hdfs上的檔案，不支援修改檔案。hadoop2.0雖然支援了檔案的追加功能，但不建議對hdfs上的檔案進行修改。因為效率低下.

4、不支援使用者的並行寫：同一時間內，只能有乙個使用者執行寫操作。

易懂總結：1、不能做到低延遲資料訪問： hdfs 針對一次性讀取大量資料繼續了優化，犧牲了延遲性。

2、不適合大量的小檔案儲存：

a:由於namenode將檔案系統的元資料儲存在記憶體中,因此該檔案系統所能儲存的檔案總數受限於namenode的記憶體

容量。b:每個檔案、目錄和資料塊的儲存資訊大約佔150位元組。

由於以上兩個原因，所以導致hdfs不適合大量的小檔案儲存

3、檔案的修改；不適合多次寫入，一次讀取（少量讀取）

4、不支援多使用者的並行寫。

目標：掌握hdfs對目錄如何進行限制。

大資料入門 HDFS的特性

獲取hdfs （大資料）HDFS

大資料入門與實戰 HDFS的常用操作

大資料入門 HDFS檔案管理系統簡介

大資料入門 HDFS的特性

獲取hdfs （大資料）HDFS

大資料入門與實戰 HDFS的常用操作

大資料入門 HDFS檔案管理系統簡介

相關推薦