大資料基礎回顧1

今年馬上工作三年了，17年畢業到現在，正好複習下學到的大資料知識，如果有什麼錯誤請指正。

當檔案被上傳到hdfs上時，客戶端會詢問namenode元資料，namenode合理分配，將檔案以塊（通常為128m)

的形式分配到不同的資料節點上，也就是datanode，以及分配副本，namenode儲存著資料檔案的元資訊，比如哪個塊，在哪個datanode上。

namenode元資料管理有三種形式

一種是記憶體元資料，也就是metadata

第二種是edits，也就是編輯日誌，儲存了對元資料的操作資訊。

第三種是fsimage，是在磁碟中儲存的記憶體元資料的映象，通常也叫檢查點。

網上大多只有官方文件的翻譯，說說我個人的理解吧

standbynamenode和secondarynamenode是兩個東西，ha立馬切換，snamenode只是為了更好地輔助namenode

因為namenode操作會產生日誌，這個就是edits.log ，正常情況下只有重啟才會合併日誌，但是生產情況通常namenode都是7x24小時的，所以edtis.log會大大大，這樣的話，重啟會很消耗時間，snn就是為了這種情況而生

操作資訊首先會被記錄到edits中，然後當edits滿了，會新建乙個edits_new,停止向edits中寫入資料，secondarynamenode 會通過http get將fsimage和edits_old放入到記憶體中，並合併成fsimage_new，最後通過http_put用fsimage_new 替換掉fsimage，同時edits_new改名成edits

而ha呢，會把edits複製到本地（差別乙個是本地，snamenode通常都是另外乙個機器），然後放入到類似共享集群中，然後standby會定時讀edit.log，會和fsimage合併，然後再講合併後的fsimage放入到共享集群中，active namenode會替換掉fsimage，至於替換的時機，由兩個引數決定，乙個是時間，乙個是edit事務條目

大資料基礎回顧1

回顧c 基礎（1）

html css js基礎知識回顧 1

大資料基礎

大資料基礎回顧1

回顧c 基礎（1）

html css js基礎知識回顧 1

大資料基礎

相關推薦