spark 廣播變數與累加器

如何理解廣播變數？

適用場景：大變數，比如100m以上的大集合。運算元函式中使用到外部變數時，預設情況下，spark會將該變數複製多個副本，通過網路傳輸到task中，此時每個task都有乙個變數副本。如果變數本身比較大的話（比如100m，甚至1g），那麼大量的變數副本在網路中傳輸的效能開銷，以及在各個節點的executor中占用過多記憶體導致的頻繁gc，都會極大地影響效能。

如果使用的外部變數比較大，建議使用spark的廣播功能，對該變數進行廣播。廣播後的變數，會保證每個executor的記憶體中，只駐留乙份變數副本，而executor中的task執行時共享該executor中的那份變數副本。這樣的話，可以大大減少變數副本的數量，從而減少網路傳輸的效能開銷，並減少對executor記憶體的占用開銷，降低gc的頻率。

spark.sparkcontext.setloglevel("
error")
val data=spark.sparkcontext.textfile("
f:\\ideaworkspace\\lzm\\resource\\kzc202007.txt")
val l=list("
hadoop
","apache")
val lbroad=spark.sparkcontext.broadcast(l)
data.flatmap(x=>x.trim.split("
")).map((_,1)).filter(x=>).reducebykey(_+_).collect().foreach(println(_))

通過value訪問廣播變數的值

spark 廣播變數與累加器

Spark廣播變數與累加器

spark廣播變數與累加器

Spark累加器和廣播變數

spark 廣播變數與累加器

Spark廣播變數與累加器

spark廣播變數與累加器

Spark累加器和廣播變數

相關推薦