SparkRDD運算元 sample運算元

2021-10-08 17:34:15 字數 653 閱讀 9305

val newrdd = oldrdd.sample(withreplacement, fraction, seed)

withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣

fraction表示隨機抽樣的資料數量

seed用於指定隨機數生成器種子

def sample

(withreplacement : scala.boolean, fraction : scala.double, seed : scala.long =

): org.apache.spark.rdd.rdd[t]

=

以指定的隨機種子隨機抽樣出數量為fraction的資料,withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣,seed用於指定隨機數生成器種子。

package com.day1

import org.apache.spark.rdd.rdd

import org.apache.spark.

object oper }輸入

1234

5678

910輸出3

59

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...