小白系列之通俗易懂的Hadoop

由hdfs、mapreduce、yarn三部分分開訴說。只用簡單的話來介紹基本原理，涉及不深，如有錯誤請多多指點。

hadoop是基於google的集群系統理論來進行的開源實現：

google的集群系統：gfs、mapreduce、bigtable

hadoop的集群系統：hdfs、mapreduce、hbase

hadoop設計的初衷是為了解決nutch的海量資料儲存和處理的需求，可以解決大資料場景下的資料儲存和處理的問題。一開始hdfs和mapreduce是作為nutch的兩個元件來使用，後來發現這兩個元件不只是可以用在nutch搜尋，所以就單獨取出來組成了hadoop。

需要注意的是hadoop處理的離線資料，即在資料已知以及不要求實時性的場景下使用。

gb、tb級別的資料

資料增長不快

主要為結構化的資料

統計和報表

tb、pb級別的資料

持續的高速增長

半結構化、非結構化的資料

資料探勘和**性分析

海量資料的獲取、儲存、聚合、管理這些資料以及對資料進行深度分析的新技術和新能力。

hadoop名字的起源： doug cutting如此解釋hadoop的得名：「這個名字是我孩子給一頭吃飽了的棕黃色大象命名的。我的命名標準就是簡短，容易發音和拼寫，沒有太多的意義，並且不會被用於別處。小孩子是這方面的高手。google就是由小孩命名的。」

hdfs：用於分布式檔案的儲存

mapreduce：用於資料的計算

yarn：進行任務排程。是hadoop2.0出現的

什麼是hdfs？

hdfs全稱是hadoop分布式檔案儲存系統，通過將大規模資料檔案切分為block資料塊，並多複本的儲存在集群的多個datanode節點中，來保證大資料儲存的高可靠高效能。

有哪些優缺點？

優點是：1.支援超大檔案；2.可以快速檢測和應對機器故障（通過故障檢測和心跳機制）；3.有很高資料吞吐量（通過流式資料訪問和簡化一致性模型）；4.高容錯性（通過多個副本）；5.可以構建在廉價的機器上。

缺點是：1.不適合低延遲的訪問需求（hdfs注重於高資料吞吐量）；2.大量小檔案會影響namenode的效能（namenode記憶體的大小決定了hdfs可儲存的檔案數量）；3.不適合多使用者寫入和修改檔案（hdfs只支援一次寫入多次讀取，只能追加不能修改）；

讀資料流程

1.客戶端向namenode提交讀資料申請；2.namenode通過查詢元資料返回檔案的block列表和datanode位址；3.客戶端會挑選最近的datanode讀取block，讀取完成後關當前閉datanode連線並尋找下乙個block所在的datanode；4.每讀完乙個block都會進行checknum驗證，如果出現錯誤會從下乙個擁有該block副本的datanode讀取；5.全部讀取完成後datanode通知namenode關閉連線。

寫資料流程

1.客戶端向namenode提交寫資料申請；2.namenode會檢查該檔案是否存在，返回是否可以上傳；3.當客戶端寫入檔案時，會向namenode申請blocks，獲取合適的datanode列表；4.以管道的形式將開發者切分好的檔案寫入datanode中，該datanode同時向副本datanode寫入資料；5.檔案儲存成功後會返回乙個應答資訊給客戶端完成資料寫入。

大量小檔案處理什麼是mapreduce？

mapreduce是一種分布式計算模型，用於解決海量資料的計算問題。它主要由map和reduce兩個階段組成，使用者只需要實現map()和reduce()兩個函式即可實現分布式計算。

map階段：1.讀取檔案內容，解析為key-value對，每乙個鍵值對會呼叫一次map函式；2.通過編寫邏輯對輸入的鍵值對進行處理轉換成新的鍵值對輸出；3.輸出的鍵值對會進行分割槽，相同分割槽的資料會根據key的順序放在同乙個集合中。

reduce階段：1.reduce會主動獲取map任務的輸出，按照不同的分割槽複製到不同的reduce。2.通過編寫邏輯對多個map任務的輸出進行處理，轉換為新的鍵值對輸出；3.最後將結果儲存在檔案中。

shuffle機制

shuffle機制的mapreduce框架最為核心的部分，主要是指將map輸出結果交給reduce的過程。可以分為map端和redeuce端。

在map端，map的輸出結果會先寫入環形緩衝區，快取中的資料會進行分割槽、排序和合併，當快取達到溢寫比後會寫出為磁碟檔案，在map任務結束之前會將多個溢寫檔案合併為乙個大檔案，通知對應的reduce任務進行處理。

在reduce端，從不同的map處獲取任務資料後放入緩衝區進行歸併和合併操作，最後交給reduce函式處理

處理資料傾斜問題

資料傾斜的產生是由於資料的key分化嚴重不均，形成一部分資料很多，一部分資料很少的局面，導致存在reduce節點執行過慢從而增加整體執行時間的情況。

1.可以將一次的mapreduce操作分為兩次，第一次map處理時將key隨機分到不同的reduce中先進行一次處理，再將相同key分配到reduce中進行第二次處理。

2.將可能出現大量資料的key分為多組進行reduce操作，再進行第二次mr操作。

3.增加reduce的記憶體，增加reduce的個數

實現二次排序

mr調優策略

1.減少資料的傳輸量

2.盡量使用記憶體

3.減少磁碟i/o的次數

4.增大任務並行數

5.除此之外還有根據自己集群及網路的實際情況來調優

yarn在集群中有什麼作用？

yarn是hadoop的集群資源管理系統。主要由資源管理器resource manager和節點管理器node manager組成。

yarn的組成

執行過程

小白系列之通俗易懂的Hadoop

通俗易懂之Ajax

網路基礎好文（通俗易懂系列）

通俗易懂之Ajax 二

小白系列之通俗易懂的Hadoop

通俗易懂之Ajax

網路基礎好文（通俗易懂系列）

通俗易懂之Ajax 二

相關推薦