Spark經典案例之資料去重

資料格式

flie1:

2012-3-1 a

2012-3-2 b

2012-3-3 c

2012-3-4 d

2012-3-5 a

2012-3-6 b

2012-3-7 c

2012-3-3 c

flie2:

2012-3-1 b

2012-3-2 a

2012-3-3 b

2012-3-4 d

2012-3-5 a

2012-3-6 c

2012-3-7 d

2012-3-3 c

package classiccase
import org.apache.spark.
object case2 
}

輸出結果

2012-3-1 a 2012-3-1 b 2012-3-2 a 2012-3-2 b 2012-3-3 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-6 c 2012-3-7 c 2012-3-7 d (2012-3-1 a,1) (2012-3-1 b,1) (2012-3-2 a,1) (2012-3-2 b,1) (2012-3-3 b,1) (2012-3-3 c,1) (2012-3-4 d,1) (2012-3-5 a,1) (2012-3-6 b,1) (2012-3-6 c,1) (2012-3-7 c,1) (2012-3-7 d,1)

（1）當採用reducebykeyt時，spark可以在每個分割槽移動資料之前將待輸出資料與乙個共用的key結合。借助下圖可以理解在reducebykey裡究竟發生了什麼。注意在資料對被搬移前同一機器上同樣的key是怎樣被組合的(reducebykey中的lamdba函式)。然後lamdba函式在每個區上被再次呼叫來將所有值reduce成乙個最終結果。整個過程如下：

（2）當採用groupbykey時，由於它不接收函式，spark只能先將所有的鍵值對(key-value pair)都移動，這樣的後果是集群節點之間的開銷很大，導致傳輸延時。整個過程如下：

( 3 )區別

reducebykey,在本機suffle後,再傳送乙個總map，傳送到乙個總機器上suffle彙總map，（彙總要壓力小）

groupbykey,傳送本機所有的map,在乙個機器上suffle彙總map（彙總壓力大）

Spark經典案例之資料去重

Spark經典案例之資料排序

去重與去空案例

greendao 查詢之資料去重

Spark經典案例之資料去重

Spark經典案例之資料排序

去重與去空案例

greendao 查詢之資料去重

相關推薦