Spark 中的累加器及廣播變數

1、原理

累加器用來把 executor 端變數資訊聚合到 driver 端。在 driver 程式中定義的變數，在 executor 端的每個 task 都會得到這個變數的乙份新的副本，每個 task 更新這些副本的值後，傳回 driver 端進行 merge。

2、系統累加器

package spark.core.accumulator
import org.apache.spark.
/** * 系統自帶累加器
*/object spark_os_accumulator_study1 
)// 獲取累加器的值
println(
"sum = "
+ sum.value)
}}

執行結果：

3、自定義累加器

package spark.core.accumulator
import org.apache.spark.rdd.rdd
import org.apache.spark.util.accumulatorv2
import org.apache.spark.
import scala.collection.mutable
/** * 自定義累加器
* 1、建立累加器
* 2、註冊累加器
*/object spark_user_accumulator_study1 
)// 4、獲取累加器的值
println(acc.value)
}class wordcountaccumulator extends accumulatorv2[
string
, mutable.map[
string
,long]]
// 複製累加器
override
def copy(
): accumulatorv2[
string
, mutable.map[
string
,long]]
=// 重置累加器
override
def reset():
unit
=// 向累加器中增加資料(in)
override
def add(word :
string):
unit
=// 合併累加器
override
def merge(other: accumulatorv2[
string
, mutable.map[
string
,long]]
):unit=)
}// 返回累加器的結果(out)
override
def value: mutable.map[
string
,long
]= map
}}

1、原理

廣播變數用來高效分發較大的物件，向所有工作節點傳送乙個較大的唯讀值，以供乙個或多個 spark 操作使用。比如，如果你的應用需要向所有節點傳送乙個較大的唯讀查詢表，廣播變數用起來都很順手。在多個並行操作中使用同乙個變數，但是 spark 會為每個任務分別傳送。

2、**

package spark.core.accumulator
import org.apache.spark.rdd.rdd
import org.apache.spark.util.accumulatorv2
import org.apache.spark.
import scala.collection.mutable
/** * 自定義累加器
* 1、建立累加器
* 2、註冊累加器
*/object spark_user_accumulator_study1 
)// 4、獲取累加器的值
println(acc.value)
}class wordcountaccumulator extends accumulatorv2[
string
, mutable.map[
string
,long]]
// 複製累加器
override
def copy(
): accumulatorv2[
string
, mutable.map[
string
,long]]
=// 重置累加器
override
def reset():
unit
=// 向累加器中增加資料(in)
override
def add(word :
string):
unit
=// 合併累加器
override
def merge(other: accumulatorv2[
string
, mutable.map[
string
,long]]
):unit=)
}// 返回累加器的結果(out)
override
def value: mutable.map[
string
,long
]= map
}}

執行結果：

Spark 中的累加器及廣播變數

Spark廣播變數與累加器

Spark累加器和廣播變數

spark 廣播變數與累加器

Spark 中的累加器及廣播變數

Spark廣播變數與累加器

Spark累加器和廣播變數

spark 廣播變數與累加器

相關推薦