累加器和廣播變數共享變數

兩大類：

1、boradcast variables 廣播變數

廣播變數的產生原因：

如果乙個變數需要在每個task中都使用一次，那麼預設情況下，就是每乙個task都會拷貝乙份副本。如果這個變數比較小，那麼無所謂。如果這個變數有100m，乙個executor中併發執行了30個執行緒，那麼最終會占用記憶體3g了。

使用了廣播變數之後，這個變數就被廣播給了每個exector，那麼該exector中的所有的task都共享這個變數，也就是相當於不管這個executor中啟動了多少個執行緒，最終這個記憶體的使用量就是100m。

作用：節省網路帶框和節點的使用記憶體

2、accumulators 累加器

與mapreduce中的全域性計數器的原理和作用一摸一樣。

作用：完成某些特殊的業務

案例：累加器的作用：可以實現乙個變數在不同的executor端能保持狀態的累加。

def main(args: array[string]): unit = )
res.cache().count()
println(acc.value)
res.collect()
print(acc.value)
}

上述map運算元中的計算過程是在executor端進行的，但是ac是在driver端定義的，所以driver端的ac是接收不到executor端計算過的ac的值。

使用累加器注意的事項：防止重複累加

累加器是在遇到action運算元的時候才進行累加操作的，使用累加器的過程中只能使用一次action的操作才能保證結果的準確性。

解決防止重複累加的問題：使用cache，persist運算元，之後可以多次使用action運算元。

val myacc = sc.longaccumulator("myacc")

myacc.add(x)

println(myacc.value)

題目：如何使用spark編寫mapjoin程式？

把小表的所有資料處理成乙個map，然後通過廣播變數傳給所有執行這個task的executor程序，每個執行緒在執行乙個task的時候，就都只需要從exector中獲取即可。

累加器和廣播變數 共享變數