spark 學習筆記 sample 運算元

2022-04-03 09:22:13 字數 532 閱讀 9499

def sample(

withreplacement: boolean,

fraction: double,

seed: long = utils.random.nextlong): rdd[t] =

")

輸入引數:withreplacement、fraction,seed

返回: 陣列集組成的rdd

withreplacement:表示抽出樣本後是否在放回去,true表示會放回去,這也就意味著抽出的樣本可能有重複

fraction :抽出多少,這是乙個double型別的引數,0-1之間,eg:0.3表示抽出30%

seed:表示乙個種子,根據這個seed隨機抽取,一般情況下只用前兩個引數就可以,那麼這個引數是幹嘛的呢,這個引數一般用於除錯,有時候不知道是程式出問題還是資料出了問題,就可以將這個引數設定為定值

有放回取樣0.001%

data.sample(true,0.00001).collect().foreach(println)

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記

1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...

Spark學習筆記

spark不僅僅支援mapreduce,還支援sql machine learning graph運算等,比起hadoop應用更靈活寬泛。spark 中的rdd 資料結構應對mapreduce中data replication disk io serialization引起的低效問題。rdd 類似於...