Spark RDD運算元應用案例(1)

2021-08-19 19:55:19 字數 1767 閱讀 1734

資料格式為:

不考慮地區,列出版本公升級情況,

結果格式:

例: 資料:

2017-08-14,王祖賢,連連看,360應用,北京,v1.0

2017-08-14,王祖賢,連連看,360應用,天津,v1.2

2017-08-14,王祖賢,連連看,360應用,天津,v2.0

結果:

(2017-08-14,王祖賢,連連看,360應用,v1.0,v1.2)

(2017-08-14,王祖賢,連連看,360應用,v1.2,v2.0)

//建立sc物件  設定模式為本地

val conf: sparkconf = new sparkconf()

.setmaster("local")

val sc: sparkcontext = new sparkcontext(conf)

//讀取檔案

//切割資料,城市欄位不需要,可忽略

//按key分組

分組後,發現每組中有重複資料,以及單個資料,要把他們過濾掉

//去重,過濾

如圖,要把每組的value進行拆分組合,這裡用到zip()運算元,把list的尾列表提取出來,與list進行zip()

結果:

最後,對結果進行格式整理

完成!

SparkRDD運算元 sample運算元

val newrdd oldrdd.sample withreplacement,fraction,seed withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣 fraction表示隨機抽樣的資料數量 seed用於指定隨機數生成器種子 def s...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...