Hadoop基本概念與資料管理策略

2021-10-19 09:58:20 字數 742 閱讀 8586

快(block)

hdfs的檔案被分成塊進行儲存,hdfs塊的預設大小為64m,塊是檔案儲存處理的邏輯單元

namenode
namenode是管理節點,存放檔案元資料,元資料報含以下兩個部分

檔案與資料塊的對映表

資料塊資料節點的對映表

datenode
datenode是hdfs的工作節點,存放資料塊

資料庫副本

hdfs的每個資料塊會有三個副本,分布在兩個機架內的三個節點,以確保任何乙個節點發生故障時,可以通過其他節點獲取資料

心跳檢測
datanode定期向namenode傳送心跳資訊,這樣namenode可以隨時知道各個節點健康狀態

二級namenode
二級namenode會定期同步原資料和修改日誌當namenode發生故障的時候,二級namenode會自動切換成一級namenode

hadoop實戰 一 hadoop基本概念

hadoop wiki上定義,apache hadoop is an open source software framework used for distributed storage and processing of very large data sets 就是說hadoop是 大資料下 ...

hadoop起步之HDFS基本概念

1 適用範圍 1 適用於一次寫入,多次讀取的大檔案儲存方案 2 不適用於低延遲的需求方案,可以考慮hbase 3 不適用於海量小檔案儲存 metadata會膨脹 2 兩個角色 1 namenode,主要管理檔案目錄樹,檔案元資料,並知曉乙個檔案的block都在哪些datanode上 2 datano...

hadoop元資料管理機制

namenode職責 負責客戶端請求的響應 元資料的管理 查詢,修改 客戶端經常性的會有 查詢元資料的請求 和更新元資料的請求 namenode對資料的管理採用了三種儲存形式 記憶體元資料 namesystem 磁碟元資料映象檔案 fsimage 資料操作日誌檔案 可通過日誌運算出元資料edits ...