SparkRDD運算元 sample運算元

val newrdd = oldrdd.sample(withreplacement, fraction, seed)

withreplacement表示是抽出的資料是否放回，true為有放回的抽樣，false為無放回的抽樣

fraction表示隨機抽樣的資料數量

seed用於指定隨機數生成器種子

def sample
(withreplacement : scala.boolean, fraction : scala.double, seed : scala.long =
): org.apache.spark.rdd.rdd[t]
=

以指定的隨機種子隨機抽樣出數量為fraction的資料，withreplacement表示是抽出的資料是否放回，true為有放回的抽樣，false為無放回的抽樣，seed用於指定隨機數生成器種子。

package com.day1
import org.apache.spark.rdd.rdd
import org.apache.spark.
object oper }輸入
1234
5678
910輸出3
59

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案，而且相容hdfs hive，可融入hadoop的生態系統，以彌補mapre...

SparkRDD運算元 sample運算元

Spark RDD運算元介紹

Spark RDD運算元介紹

Spark RDD運算元介紹

相關推薦