Hadoop學習日記(一)

2021-09-11 12:10:43 字數 763 閱讀 6054

2019.02.27

1.客戶端上傳檔案時,nn首先往edits log檔案中記錄元資料操作日誌;

2.客戶端開始上傳檔案,完成後返回成功資訊給nn,nn就在記憶體中寫入這次上傳操作的新產生的元資料資訊;

3.每當edits log寫滿時,需要將這一段時間的新的元資料刷到fsimage檔案中去(將edits log和fsimage做合併);

secondary namenode的工作流程:

1.sn通知nn切換edits檔案;

2.sn從nn獲得fsimage和edits log(通過http);

3.sn將fsimage載入到記憶體,然後開始合併edits log;

4.sn將新的fsimage發回給nn;

5.nn用新的fsimage替換舊的。

fs.checkpoint.period指定兩次checkpoint之間的最大時間間隔,預設為3600秒;

fs.checkpoint.size規定edits log檔案的最大值,一旦超過這個值則強制checkpoint,不管是否達到時間間隔。預設大小是64m.

namenode的職責:

1、維護元資料資訊;

2、維護hdfs的目錄樹;

3、響應客戶端的請求

Hadoop學習日記(九) Yarn框架

2019.07.01 學習過程主要參考段海濤大資料p26 1.runjar程序向resourcemanager申請執行乙個job 2.resourcemanager返回job相關資源的提交路徑staging dir和為本job產生的jobid 3.向hdfs提交資源 4.匯報提交結果 5.將本job...

Hadoop學習日記(十三) Shuffle機制

2019.07.03 學習過程主要參考段海濤大資料p35 map任務與資料儲存的資料中間有一層 切片 split 的概念。對於小檔案處理,可使得乙個split對應多個實際的資料塊 當檔案較大被分成多個128m的塊時,乙個split可對應乙個塊。1.每個map有乙個環形記憶體緩衝區,用於儲存任務的輸出...

Hadoop學習一 Hadoop版本

一.hadoop社群版和發行版 社群版 我們把apache社群一直開發的hadoop稱為社群版。簡單的說就是apache hadoop 發行版 基於apache hadoop的基礎上進行商業改造的解決方案,包含一系列定製的管理工具和軟體。二.hadoop社群版版本號 一直以來,hadoop的版本號一...