Reduce端的Iterable集合的理解

2021-07-24 17:40:55 字數 551 閱讀 1433

iterable:

1.集合裡邊的每個數值在記憶體中是用完全二叉樹儲存的形式儲存的(小頂堆)

2.小頂堆的頂端(根節點)儲存著按排序後的最大或最小值(小頂堆的特性)

(到底是最大還是最小根據你的排序規則確定)

3.每次迴圈一次,小頂堆的堆頂數值都會改變,但是不變的是頂堆的數一定是最大或最小值(小頂堆的特性)

4.當第一次呼叫這個reduce(text,iterable,context)方法時,傳過來的text(key引用)指向了(小頂堆那組的key值)

5.當迴圈發生時引用(key)不變但是key儲存的key發生變化是因為小頂堆的特性決定的,它會調整這個結構頂堆的數一定是最大或最小值

job.setsortcomparatorclass設定的key比較函式類對所有資料對排序。然後開始構造乙個key對應的value迭代器。這時就要用到分組,使用jobjob.setgroupingcomparatorclass設定的分組函式類。

hadoop map端reduce端調優引數

map端 io.sort.mb 型別int預設100 map的記憶體緩衝區 io.sort.record.precent 型別 float預設0.05 io.sort.mb的快取區記錄索引kvindices和快取區記錄索引排序工作陣列kvoffsets占用空間比例 io.sort.spill.per...

reduce端join與map端join演算法實現

2 實現機制 通過將關聯的條件作為map輸出的key,將兩表滿足join條件的資料並攜帶資料所 的檔案資訊,發往同乙個reduce task,在reduce中進行資料的串聯 第一步 定義joinbeans public class joinbeans extends joinreduce imple...

MapReduce之Reduce端Join實現

mapreduce之helloword很簡單,但是要想繼續自己來寫,還有很多坑要注意。這不,咱們這回來個reduce端join實現。網上一搜,有很多,我們要來個自己的吧。廢話少說,先上傳一些資料到hdfs上。input pd.csv 假設這個是產品名稱檔案 input sale.csv 假設這個是銷...