Hadoop離線基礎總結 HDFS詳細介紹

2021-10-02 23:54:16 字數 739 閱讀 8425

分布式檔案系統設計思路

為了解決資料丟失的問題,引入副本機制,保證資料不會丟失

如果對檔案進行切塊儲存,那麼元資料資訊又要繼續變化

blk元資料資訊的記錄

blk_00001 node01 node03 /export/servers/blk_00001

blk_00002 node02 node01 /export/servers/blk_00002

blk_00003 node03 node02 /export/servers/blk_00003

檔案系統基本介紹

hdfs檔案系統的設計目標

hdfs基礎架構圖

檔案副本機制和block塊儲存

塊快取:distributedcache 可以用來實現我們的檔案的快取。

hdfs的許可權驗證:採用了與linux類似的許可權驗證機制,許可權驗證比較弱(防止好人做錯事,不能阻止壞人做壞事)(hdfs相信你告訴我你是誰,你就是誰)

fsimage與edits

hdfs檔案的寫入過程和讀取過程

Hadoop之Flume採集檔案到hdfs

內容如下 定義三大元件的名稱,myagent可以自己定義 myagent.sources source1 myagent.sinks sink1 myagent.channels channel1 配置source元件 myagent.sources.source1.type spooldir 定義...

Hadoop使用者啟動hdf三個程序

root 使用者來啟動了 hdfs hdfs site.xml 內的引數都是官方預設的引數,所以啟動項沒有整理比較亂,為了做生產標準統一規範使用,我要用 hadoop 使用者啟動 hdfs 程序的啟動顯示全部為 hadoop 01 的主機名,先看看 root 使用者下啟動的情況 namenodes ...

Hadoop離線專案處理流程

1.企業級專案開發流程 綠色字型 紅色字型 粉色字型 藍色字型 專案調研 技術?業務?產品經理 非常熟悉業務 專案經理 需求分析 做什麼 做成什麼樣 使用者提出來的 顯式 隱式方案設計 概設詳設 系統設計 功能開發 開發測試 單元測試 cicd 測試 功能 聯調效能 使用者 試用 部署上線 試執行 ...