Hadoop學習日記（一）

2019.02.27

1.客戶端上傳檔案時，nn首先往edits log檔案中記錄元資料操作日誌；

2.客戶端開始上傳檔案，完成後返回成功資訊給nn，nn就在記憶體中寫入這次上傳操作的新產生的元資料資訊；

3.每當edits log寫滿時，需要將這一段時間的新的元資料刷到fsimage檔案中去（將edits log和fsimage做合併）；

secondary namenode的工作流程：

1.sn通知nn切換edits檔案；

2.sn從nn獲得fsimage和edits log（通過http）；

3.sn將fsimage載入到記憶體，然後開始合併edits log；

4.sn將新的fsimage發回給nn；

5.nn用新的fsimage替換舊的。

fs.checkpoint.period指定兩次checkpoint之間的最大時間間隔，預設為3600秒；

fs.checkpoint.size規定edits log檔案的最大值，一旦超過這個值則強制checkpoint，不管是否達到時間間隔。預設大小是64m.

namenode的職責：

1、維護元資料資訊；

2、維護hdfs的目錄樹；

3、響應客戶端的請求

Hadoop學習日記（九） Yarn框架

2019.07.01 學習過程主要參考段海濤大資料p26 1.runjar程序向resourcemanager申請執行乙個job 2.resourcemanager返回job相關資源的提交路徑staging dir和為本job產生的jobid 3.向hdfs提交資源 4.匯報提交結果 5.將本job...

Hadoop學習日記（十三） Shuffle機制

2019.07.03 學習過程主要參考段海濤大資料p35 map任務與資料儲存的資料中間有一層切片 split 的概念。對於小檔案處理，可使得乙個split對應多個實際的資料塊當檔案較大被分成多個128m的塊時，乙個split可對應乙個塊。1.每個map有乙個環形記憶體緩衝區，用於儲存任務的輸出...

Hadoop學習一 Hadoop版本

一.hadoop社群版和發行版社群版我們把apache社群一直開發的hadoop稱為社群版。簡單的說就是apache hadoop 發行版基於apache hadoop的基礎上進行商業改造的解決方案，包含一系列定製的管理工具和軟體。二.hadoop社群版版本號一直以來，hadoop的版本號一...

Hadoop學習日記（一）

Hadoop學習日記（九） Yarn框架

Hadoop學習日記（十三） Shuffle機制

Hadoop學習一 Hadoop版本

相關推薦