Hadoop中HDFS優缺點

2021-10-09 20:33:25 字數 904 閱讀 6262

1) 資料自動儲存多個副本。它通過增加副本的形式,提高容錯性。

2) 某乙個副本丟失以後,它可以自動恢復,這是由 hdfs 內部機制實現的,我們不必關心。

1) 它是通過移動計算而不是移動資料。

2) 它會把資料位置暴露給計算框架。

1) 資料規模:能夠處理資料規模達到 gb、tb、甚至pb級別的資料。

2) 檔案規模:能夠處理百萬規模以上的檔案數量,數量相當之大。

3) 節點規模:能夠處理10k節點的規模。

4)hdfs缺省會將檔案分割成block,64m為1個block。然後將block按鍵值對儲存在hdfs上,並將鍵值對的對映存到記憶體中。如果小檔案太多,那記憶體的負擔會很重。

1) 一次寫入,多次讀取,不能修改,只能追加。

2) 它能保證資料的一致性。

1)如普通pc、linux系統上

1) 比如毫秒級的來儲存資料,無法處理。

2) 它適合高吞吐率的場景,就是在某一時間內寫入大量的資料。但是它在低延時的情況  下是不行的,比如毫秒級以內讀取資料,這樣它是很難做到的。

1) 儲存大量小檔案的話,它會占用  namenode大量的記憶體來儲存檔案、目錄和塊資訊。這樣是不可取的,因為namenode的記憶體總是有限的。

2) 小檔案儲存的尋道時間會超過讀取時間,它違反了hdfs的設計目標。 改進策略

1) 乙個檔案只能有乙個寫,不允許多個執行緒同時寫。

參閱:

HDFS的優缺點

hdfs的優點 1 資料冗餘 硬體容錯 檔案以block的方式,多副本儲存在集群的節點上,保證硬體的容錯,當某一機器損壞時,不至於資料丟失 2 處理流式的資料訪問 流式 一次寫入,多次讀取的操作 3 適合儲存大檔案 4 可構建在廉價的機器上 缺點 1 低延遲的資料訪問 資料大,想在秒級別做資料的檢索...

HDFS的優缺點

優點 1 適合儲存超大檔案 儲存級別基本都是gb甚至tb以上。2 伺服器廉價 3 流式資料訪問 一次寫入後,多次讀取,當資料作為分析物件後,以後的讀取時間比第一次讀取少很多時間。缺點 1 實時的資料訪問弱 由於儲存量大,所以讀取資料慢。2 大量小檔案 因為namenode把檔案系統的元資料放置在記憶...

HDFS的優缺點

hdfs的優點 1 海量資料儲存 hdfs可橫向擴充套件,其儲存的檔案可以支援pb級別或更高階別的資料儲存。2 高容錯性 資料儲存多個副本,副本丟失後自動恢復。可構建在廉價的機器上,實現線性擴充套件。當集群增加新節點之後,namenode也可以感知,進行負載均衡,將資料分發和備份資料均衡到新的節點上...