Hadoop學習2 hdfs節點間檔案塊分配原理

2021-08-28 10:25:40 字數 772 閱讀 6575

hdfs的全稱是hadoop distributed file system,是乙個常用的分布式檔案系統。當然也可以選擇其他檔案系統。

在hdfs中,檔案被客戶端分解成若干塊,每一塊都有多份拷貝(拷貝的數量可配置),每乙份拷貝在不同的datanode節點上。這就保證了如果其中一台datanode節點宕機,檔案資料也不會丟失。

元資料從形式上講,元資料可分為記憶體元資料和元資料檔案兩種。其中namenode在記憶體中維護整個檔案系統的元資料映象,用於hdfs的管理;元資料檔案則用於持久化儲存。

從型別上講,元資料有三類重要資訊:

每乙個元資料對應乙個檔案,所以說hadoop擅長處理大檔案,而不擅長處理小檔案。因為比如每個小檔案1m,有1024個就是1g,需要1024個元資料。如果把128個小檔案整合成乙個大檔案,只需要8個元資料,namenode處理元資料的壓力會減小,而datanode不會應為檔案的增大而增加負擔。

editslog檔案和fsimage檔案

hdfs的檔案操作,首先將相應的操作日誌寫到editslog中,fsimage相當於某一時刻hdfs中元資料的快照。在某一時間(checkpoint),fsimage會結合editslog,生成最新的元資料metadata,儲存在namenode的磁碟中。

checkpoint機制

editslog和fsimage檔案的整合要占用部分cpu資源,所以在namenode上整合會使namenode的主業務受到牽制,所以整合的過程一般發生在另外的伺服器節點——secondary namenode

secondary namenode的作用

hadoop學習2 HDFS操作

課程內容為hdfs的基本操作和hue頁面的使用主要是hdfs的基本命令。對於檔案的操作,命令與linux的類似,但是要在前面加上hadoop fs 其基本的格式為 hadoop fs 檢視檔案 hadoop fs ls 可以看到data資料夾下只有乙個資料夾test 建立路徑 hadoop fs m...

hadoop學習筆記(HDFS)

hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...

hadoop學習 HDFS詳細學習

1 hdfs概念 hadoop distributed file system,簡稱hdfs,是乙個分布式檔案系統。hdfs是高容錯性的,可以部署在低成本的硬體之上,hdfs提供高吞吐量地對應用程式資料訪問,它適合大資料集的應用程式。2 hdfs 設計目標 hdfs不適合做什麼 儲存小檔案 大量隨機...