Hadoop學習2 hdfs節點間檔案塊分配原理

hdfs的全稱是hadoop distributed file system，是乙個常用的分布式檔案系統。當然也可以選擇其他檔案系統。

在hdfs中，檔案被客戶端分解成若干塊，每一塊都有多份拷貝(拷貝的數量可配置)，每乙份拷貝在不同的datanode節點上。這就保證了如果其中一台datanode節點宕機，檔案資料也不會丟失。

元資料從形式上講，元資料可分為記憶體元資料和元資料檔案兩種。其中namenode在記憶體中維護整個檔案系統的元資料映象，用於hdfs的管理；元資料檔案則用於持久化儲存。

從型別上講，元資料有三類重要資訊：

每乙個元資料對應乙個檔案，所以說hadoop擅長處理大檔案，而不擅長處理小檔案。因為比如每個小檔案1m，有1024個就是1g，需要1024個元資料。如果把128個小檔案整合成乙個大檔案，只需要8個元資料，namenode處理元資料的壓力會減小，而datanode不會應為檔案的增大而增加負擔。

editslog檔案和fsimage檔案

hdfs的檔案操作，首先將相應的操作日誌寫到editslog中，fsimage相當於某一時刻hdfs中元資料的快照。在某一時間(checkpoint)，fsimage會結合editslog，生成最新的元資料metadata，儲存在namenode的磁碟中。

checkpoint機制

editslog和fsimage檔案的整合要占用部分cpu資源，所以在namenode上整合會使namenode的主業務受到牽制，所以整合的過程一般發生在另外的伺服器節點——secondary namenode

secondary namenode的作用