Spark RDD API 基本操作

2021-08-11 07:23:23 字數 2235 閱讀 2610

objectrddtest 

defmaptest

(sc: sparkcontext) = )

//分割槽轉換

val

varinfo =

newarray[

string](3

)

for(line <- x)

yield

})//通過轉換把一條

new_tweet

的記錄轉換成2條

login

的記錄valflatmapresult = file.flatmap(x =>

login$

"case_ =>

array

(x) }

})

//distinct

排重defdistincttest

(sc: sparkcontext) =

//過濾deffiltertest

(sc: sparkcontext) =

//keyby 結果的key值是自定義的,v是原資料x

defkeybytest

(sc: sparkcontext) =

-----

$"})

useractiontype.foreach(

println

) }

//sortby

排序defsortbytest

(sc: sparkcontext) =

//topn

deftopntest

(sc: sparkcontext) =

//重新分割槽

defrepartitiontest

(sc: sparkcontext) = 條"

) })

//reparttion

分割槽 寬依賴

result.foreachpartition(x => )

//coalsce

分割槽 窄依賴

valcoalresult = file.coalesce(3)

coalresult.foreachpartition(x => ")

})}

//groupby

defgroupby

(sc: sparkcontext) = 條"

) })

groupby.foreach(x =>

,value

上集合的記錄是:

$條"

) })

//計算使用者登入次數

groupby.foreach(x=>

})println

(s"user:

$

,logintimes:

$sum")

})}

defaggsumtest

(sc: sparkcontext)=

},(c1

,c2)=>

})println

(s"reduceresult:

$reducesum")

println

(s"foldredult:

$foldredult")

println

(s"aggregateresult:

$aggregateresult")

} //persist

defpersisttest

(sc: sparkcontext)=

Spark七十九 Spark RDD API一

package spark.examples.rddapi import org.apache.spark.測試rdd的aggregate方法 object aggregatetest package spark.examples.rddapi import org.apache.spark.rdd...

mysql基本操作 MySQL基本操作

mysql中新增使用者,新建資料庫,使用者授權,刪除使用者,修改密碼 注意每行後邊都跟個 表示乙個命令語句結束 1.新建使用者 1.1 登入mysql mysql u root p 密碼 1.2 建立使用者 mysql insert into mysql.user host,user,passwor...

mysql 基本操作 mysql基本操作

mysql 建立表,並設定主鍵自增 create table log logid int 4 primary key not null auto increment,logtitle varchar 32 not null logcontent varchar 160 not null logtim...