大資料原理 HDFS

2021-10-05 03:28:25 字數 1029 閱讀 6336

hdfs解決海量的資料分布式儲存

優勢:廉價硬體、實現資料流讀寫、支援大資料集、支援簡單檔案模型、跨平台相容

侷限:實時性不高、無法儲存大量小檔案、只支援追加

抽象塊概念設計:64或128mb/個 支援大規模資料儲存(檔案切割-突破單機儲存界限);降低定址開銷(**定址 -元資料目錄-資料節點-取資料) ;適合資料備份

名稱節點:主節點 hdfs集群管家、記錄資料儲存資訊(資料目錄)

fsimage:儲存系統檔案樹(檔案複製等級、修改訪問時間、訪問許可權、塊的大小及其組成),記錄歷史資訊

editlog:日誌,記錄更新資訊

底層執行時,二者合併,獲取最新的元資料,獲取新的fsimage,建立空的editlog

元資料:儲存在名稱節點

資料節點:從節點,向名稱節點匯報其資料,儲存到本地的磁碟

採用主從架構

主名稱節點-n個資料節點

命名空間:目錄、檔案、塊

通訊協議:基於tcp/ip

客戶端與名稱節點通過tcp互動

名稱節點和資料節點的互動通過專門的資料節點協議互動

客戶端與資料節點通過遠端呼叫rpc互動實現

侷限:名稱節點在記憶體中,記憶體有上限

單個名稱節點效率

沒有進行有效隔離應用程式

單點故障

2.0兩個名稱節點 熱備份

儲存原理:冗餘、儲存、恢復問題?

乙個資料塊預設儲存3個加快了資料傳輸速度、檢查資料錯誤、保證資料可靠性

策略:乙個塊複製三份;在資料節點上傳節點放乙個副本;第二個副本在不同的節點;第三個副本在第乙個副本的節點

資料讀取:就近讀取:hdfs提供乙個api獲取機架id;客戶端讀取資料先獲取資料節點;獲得自身id和資料節點id相同的就近讀取

資料錯誤恢復:

名稱節點問題:第二名稱節點的冷備份(暫停服務)

資料節點問題:與名稱節點通過心跳聯絡;如果停止聯絡則宕機;複製其他副本恢復

資料問題:校驗碼;

hadoop:filesystem作為基類—distributedfilesystem

獲取hdfs (大資料)HDFS

hdfs 是 hadoop 的分布式檔案系統,主要用於離線的大檔案資料資料儲存。hdfs 架構 hdfs 其實與作業系統的檔案系統類似,hdfs 主要有兩種角色,乙個是 namenode 檔案索引 另乙個是 datanode 儲存資料 namenode 主要負責記錄乙個檔案的儲存元資料 例如 檔名 ...

大資料 學習hdfs

hdfs是什麼?hadoop distributed file system,它是一種分布式檔案儲存系統,主要解決大資料的儲存問題。hdfs的優缺點 優點 缺點 hdfs的主要角色 namenode 簡稱nn 是hdfs的核心節點,最重要 主要功能是 接收客戶端的讀寫請求,接收datanode傳送的...

大資料面試(HDFS)

第4章hdfs 4.1 hdfs 的讀寫流程細節?hdfs 中的 fsimage 裡面儲存的是什麼資訊?副本的存放策略?答 這個大家最好回家準備乙個詳細的流程圖然後根據自己的圖講給面試官看 4.2 hdfs 的機架感知?答 根據副本的存放策略,hdfs 是如何知道多個不同 node 是否在同乙個機架...