Hadoop 元資料持久化

檔案系統元資料的持久化

namenode儲存hdfs的元資料。對於任何對檔案元資料產生修改的操作，namenode都使用乙個稱為editlog的事務日誌記錄下來。例如，在hdfs中建立乙個檔案，namenode就會在editlog中插入一條記錄來表示；同樣，修改檔案的replication因子也將往

editlog插入一條記錄。namenode在本地os的檔案系統中儲存這個editlog。整個檔案系統的namespace，包括block到檔案的對映、檔案的屬性，都儲存在稱為fsimage的檔案中，這個檔案也是放在namenode所在系統的檔案系統上。

namenode在記憶體中儲存著整個檔案系統namespace和檔案blockmap的映像。這個關鍵的元資料設計得很緊湊，因而乙個帶有4g記憶體的

，並將這個新版本的fsimage從記憶體中flush到硬碟上,然後再truncate這個舊的editlog，因為這個舊的editlog的事務都已經作用在fsimage上了。這個過程稱為checkpoint。在當前實現中，checkpoint只發生在namenode啟動時，在不久的將來我們將實現支援週期性的checkpoint。

datanode並不知道關於檔案的任何東西，除了將檔案中的資料儲存在本地的檔案系統上。它把每個hdfs資料塊儲存在本地檔案系統上隔離的檔案中。

datanode並不在同乙個目錄建立所有的檔案，相反，它用啟發式地方法來確定每個目錄的最佳檔案數目，並且在適當的時候建立子目錄。在同乙個目錄建立所有的檔案不是最優的選擇，因為本地檔案系統可能無法高效地在單一目錄中支援大量的檔案。當乙個datanode啟動時，它掃瞄本地檔案系統，對這些本地檔案產生相應的乙個所有hdfs資料塊的列表，然後傳送報告到namenode，這個報告就是blockreport。

Hadoop 元資料持久化

HDFS的元資料持久化

資料持久化

資料持久化

相關推薦