大資料之hadoop hdfs知識通俗詳解

2021-10-25 05:23:19 字數 1297 閱讀 2867

目錄疑問

儲存模型(重要)

架構設計

角色功能

namenode

datanode

元資料持久化

安全模式

hdfs中的snn

secondarynamenode(snn)

block的副本放置策略

hdfs寫流程

hdfs讀流程 總結

分布式檔案系統那麼多,為什麼hadoop專案中還要開發乙個hdfs檔案系統?

namenode啟動過程

client和nn連線建立檔案元資料

nn判定元資料是否有效

nn處發副本放置策略,返回乙個有序的dn列表

client和dn建立pipeline連線 client將塊切分成packet(64kb),並使用chunk(512b)+chucksum(4b)

填充 client將packet放入傳送佇列dataqueue中,並向第乙個dn傳送

第乙個dn收到packet後本地儲存並傳送給第二個dn

第二個dn收到packet後本地儲存並傳送給第三個dn

這乙個過程中,上游節點同時傳送下乙個packet

生活中模擬工廠的流水線:結論:流式其實也是變種的平行計算

hdfs使用這種傳輸方式,副本數對於client是透明的

當block傳輸完成,dn們各自向nn匯報,同時client繼續傳輸下乙個block 所以,client的傳輸和block的匯報也是並行的

為了降低整體的頻寬消耗和讀取延時,hdfs會盡量讓讀取程式讀取離它最近的副本。

如果在讀取程式的同乙個機架上有乙個副本,那麼就讀取該副本。

如果乙個hdfs集群跨越多個資料中心,那麼客戶端也將首先讀本地資料中心的副本。

hdfs支援client給出檔案的offset自定義連線哪些block的dn,自定義獲取資料

這個是支援計算層的分治、平行計算的核心

hdfs可以暴露塊的位置資訊,偏移量,支援客戶端讀取檔案的任意位置。平行計算,不重複讀取資料

這也回答了,開頭的提問

大資料框架hadoop HDFS高可用

日誌型別資料 爬蟲型別的資料 關係型資料庫的資料 統計分析 畫像分析 打標籤 資料推薦 namenode管理者儲存在檔案系統上檔案的元資料,在做畫像分析的時候,由於頻繁訪問namnode讀寫資料,導致namenode掛掉了,怎麼辦?管理子節點 子節點在啟動的時候,也去找standby的namenod...

大資料零基礎學習框架Hadoop HDFS

hadoop檔案系統使用分布式檔案系統設計開發。它是執行在普通硬體。不像其他的分布式系統,hdfs是高度容錯以及使用低成本的硬體設計。hdfs擁有超大型的資料量,並提供更輕鬆地訪問。為了儲存這些龐大的資料,這些檔案都儲存在多台機器。這些檔案都儲存以冗餘的方式來拯救系統免受可能的資料損失,在發生故障時...

大資料入門 2 Hadoop HDFS詳解1

以前64m,現在128m 容量規格 也可dfs.blocksize 128m調整為256m,基於生產環境決定。hdfs 適應場景 大檔案儲存,小檔案是致命的 生產上 1.小檔案閾值,自己去看一下,取個中間值。2.如何合併小檔案 資料未落地到hdfs之前合併,資料已經落到hdfs,spark serv...