HDFS架構概述 二

2021-09-08 06:18:01 字數 854 閱讀 8104

因為在複習的時候發現有很多的東西時沒有寫到部落格當中的,所以在這裡就補充一下希望大家多提出一些意見,謝謝大家

hdfs的侷限性

1)低延時資料訪問,在使用者互動性的應用中,應用需要在ms或者幾個s的時間內得到回應。由於hdfs未高吞吐率做了設計,也因此犧牲了快速響應,對於低延時的用用,可以考慮使用hbase或者cassandra

2)大量的小檔案

標準的hdfs資料塊的大小是64m乙個,在2.x的版本當中預設是128m,儲存小檔案並不會浪費實際的儲存空間,但是無疑會增加了在namenode上的元資料,大量的小檔案會影響整個集群的效能

3)多使用者寫入,修改檔案。hdfs的檔案只能有乙個寫入者,而且寫操作只能在檔案結尾已追加的方式進行。它不支援多個寫入者,也不支援在檔案寫入後,對檔案的如人意位置的修改

但是在大資料領域,分析的是已經存在的資料,這些資料一旦產生就不會修改,因此,hdfs的這些特性和設計侷限也就容易理解了。hdfs為大資料領域的資料分析嗎,提供了非常重要而且十分基礎的檔案儲存功能

hdfs保證可靠性的措施

1)冗餘備份

每個檔案儲存成一系列資料塊(block).為了容錯,檔案的所有資料塊都會有副本(副本數量及複製因子,可配置)

2)副本存放

採用機架感知(rak-aware)的策略來進行資料的可靠性、高效性和網路寬頻的利用率

3)心跳檢測

namenode周期性地從集群吧中的每乙個datanode接受心跳包和塊報告,收到心跳包說明該datanode工作正常 4)安全模式

系統啟動時,namenode會進入乙個安全模式。此時不會出現資料塊的寫操作

5)資料完整性檢測

hdfs客戶端軟體實現了對hdfs問價那內容的校驗和(checksum)檢查

HDFS組成架構概述

1 namenode 它是乙個主管,管理者 1.管理hdfs的命名空間 2.配置副本策略 3.管理資料塊block對映資訊 4.處理客戶端讀寫請求 2 datanode 執行實際的操作,執行者 1.儲存實際的資料塊 2.執行資料塊的讀 寫操作 3 client 客戶端 1.檔案切分,檔案上傳hdfs...

Hadoop學習之HDFS架構 二

hdfs可以跨越大集群中的機器可靠地儲存非常大的檔案,將檔案儲存為一系列的塊,除了最後乙個塊外,所有的塊的大小都是相同的。當然若檔案大小正好為塊大小的倍數則所有塊的大小相同。為了容錯的目的,乙個檔案的塊會被複製成若干份,塊大小和複製因子是可配置的。應用程式可以指定檔案的副本數量,複製因子可以在檔案建...

HDFS概述及HDFS優缺點

隨著資料量越來越大,在乙個作業系統上儲存不了所有的資料,那麼就分配到更多的作業系統管理的磁碟中,但是不方便管理和維護,迫切需要一種系統來管理多台機器上的檔案,這就是分布式檔案管理系統。hdfs只是分布式檔案管理系統的一種 hdfs hadoop distributed file system 它是乙...