獲取hdfs (大資料)HDFS

2021-10-14 16:15:17 字數 1009 閱讀 9008

hdfs:是 hadoop 的分布式檔案系統,主要用於離線的大檔案資料資料儲存。

hdfs 架構:

hdfs 其實與作業系統的檔案系統類似,hdfs 主要有兩種角色,乙個是 namenode(檔案索引),另乙個是 datanode(儲存資料)。

namenode 主要負責記錄乙個檔案的儲存元資料(例如:檔名、目錄結構、檔案有多少塊,分布在哪些節點、有多少個副本、資料塊的大小等等),而 datanode 就只負責資料塊的儲存。

讀寫原理:

在客戶端發起讀寫請求時,先從 namenode 查詢檔案的相關資訊,諸如判斷檔案是否存在以及獲取檔案的資料塊相關資訊。然後挑選合適的 datanode 節點讀取或者寫入資料。

對於讀操作,會將各個 datanode 節點讀取的資料塊返回並彙總,最後返回給客戶端。

對於寫操作,檔案會被 hdfs 切分成若干個資料塊,然後分配資料塊到這些 datanode 進行儲存。完成後,就會將資料塊的元資料資訊同步更新到 namenode。

hdfs 的高可用機制:

hdfs 採用冗餘的方式來確保資料的高可用,也就是將乙份資料缺省會有兩份副本並儲存在不同的節點。一旦某個節點宕機,那麼可以使用另乙個節點的副本資料,從而保證資料的高可用。

hdfs 有心跳機制,datanode 會週期性與 namenode 進行心跳通訊並同步和校驗檔案塊的元資料資訊,確保節點的健康情況和資料的完整性。

namenode 與 datanode 是一主多從的模式,為了提高 namenode 的可用性,會對 namenode 設定主主複製模式,也就是會有乙個備用的 namenode 節點,並且與另乙個 namenode 節點的元資料進行熱備。這樣,一旦主 namenode 宕機,那麼備用的 namenode 就可以熱切換,確保 namenode 高可用,從而保證 hdfs 的高可用。

大資料 學習hdfs

hdfs是什麼?hadoop distributed file system,它是一種分布式檔案儲存系統,主要解決大資料的儲存問題。hdfs的優缺點 優點 缺點 hdfs的主要角色 namenode 簡稱nn 是hdfs的核心節點,最重要 主要功能是 接收客戶端的讀寫請求,接收datanode傳送的...

大資料面試(HDFS)

第4章hdfs 4.1 hdfs 的讀寫流程細節?hdfs 中的 fsimage 裡面儲存的是什麼資訊?副本的存放策略?答 這個大家最好回家準備乙個詳細的流程圖然後根據自己的圖講給面試官看 4.2 hdfs 的機架感知?答 根據副本的存放策略,hdfs 是如何知道多個不同 node 是否在同乙個機架...

大資料原理 HDFS

hdfs解決海量的資料分布式儲存 優勢 廉價硬體 實現資料流讀寫 支援大資料集 支援簡單檔案模型 跨平台相容 侷限 實時性不高 無法儲存大量小檔案 只支援追加 抽象塊概念設計 64或128mb 個 支援大規模資料儲存 檔案切割 突破單機儲存界限 降低定址開銷 定址 元資料目錄 資料節點 取資料 適合...