Hadoop學習(二) HDFS介紹

2021-09-26 10:27:51 字數 1021 閱讀 4997

隨著資料量越來越大,在乙個作業系統存不下所有的資料,那麼就分配到更多的作業系統管理的磁碟中,但是不方便管理和維護,迫切需要一種系統來管理多台機器上的檔案,這就是分布式檔案管理系統。 hdfs只是分布式檔案管理系統中的一種。

hadoop分布式檔案系統,主要用來解決海量資料的儲存問題;它是乙個檔案系統,用於儲存檔案,通過統一的命名空間(目錄樹)來定位檔案;其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。

hdfs的使用場景:適合一次寫入,多次讀出的場景,且不支援檔案的修改。 適合用來做資料分析,並不適合用來做網盤應用。

hdfs中的檔案在物理上是分塊儲存(block),塊的大小可以通過配置引數( dfs.blocksize)來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m

hdfs檔案系統會給客戶端提供乙個統一的抽象目錄樹,客戶端通過路徑來訪問檔案

目錄結構及檔案分塊資訊(元資料)的管理由namenode節點承擔——namenode是hdfs集群主節點,負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑(檔案)所對應的block塊資訊(block的id,及所在的datanode伺服器)

檔案的各個block的儲存管理由datanode節點承擔---- datanode是hdfs集群從節點,每乙個block都可以在多個datanode上儲存多個副本(副本數量也可以通過引數設定dfs.replication)

優點缺點

高容錯性;資料自動儲存多個副本,它通過增加副本的形式提高容錯性,某乙個副本丟失後,可以自動恢復。

不適合低延時資料訪問,比如毫秒級的儲存資料,是做不到的。

適合處理大資料;(1)資料規模:能夠處理資料規模達到gb、 tb、 甚至pb級別的資料;(2)檔案規模:能夠處理百萬規模以上的檔案數量,數量相當之大。

無法高效的對大量小檔案進行儲存。(1)儲存大量小檔案時占用namenode大量的記憶體來儲存檔案目錄和塊資訊。不可取,namenode的記憶體有限;(2)小檔案儲存的定址時間會超過讀取時間,違反了hdfs的設計目標。

可構建在廉價機器上,通過多副本機制,提高可靠性。

hadoop學習筆記(二) HDFS

定義 hdfs hadoop distributed file system 它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案,它是分布式的,由很多伺服器聯合起來實現其功能。場景 適合一次寫入,多次讀出的場景,且不支援檔案的修改,適合用來做資料分析,不適合做網盤應用。優點 1.高容錯性 資料儲存...

Hadoop學習筆記(5) HDFS介紹

它是乙個檔案系統,用於儲存檔案,通過統一的命名空間 目錄樹來定位檔案。它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色 hdfs中的檔案在物理上是分塊儲存 block 塊的大小可以通過配置引數 dfs.blocksize 來規定,預設大小在hadoop2.x版本中是128m,...

Hadoop學習之HDFS架構 二

hdfs可以跨越大集群中的機器可靠地儲存非常大的檔案,將檔案儲存為一系列的塊,除了最後乙個塊外,所有的塊的大小都是相同的。當然若檔案大小正好為塊大小的倍數則所有塊的大小相同。為了容錯的目的,乙個檔案的塊會被複製成若干份,塊大小和複製因子是可配置的。應用程式可以指定檔案的副本數量,複製因子可以在檔案建...