廣播變數和累加器的使用場景

對於經常用到變數值，在分布式計算當中，多個點檢task一定會多次請求這個變數就會產生大量網路io，會影響效率，這時就可以使用廣播變數的方式將資料廣播到對應的exector端，之後在使用該變數時就可以直接向本機獲取該值計算即可。

優點：不用從driver端拉取資料了，也不用從其他節點拉取資料了，只需要從自己的exector端獲取資料就可以了，減少網路io，提高執行效率。

缺點：資料一旦廣播出去，後期資料發生變化，無法同步到executor端，需要終止程式才可以，有些場景可以使用redis。

累加器是spark提供使用者多個task併發的對某個變數進行操作，task可以定義累加器進行操作，不能讀取其值，只有driver端才能讀取，累加器可以看做乙個靜態全域性變數。

應用場景：

能夠準確的統計資料的各種資料，例如：可以統計出符合userid的記錄數在同乙個時間段內產生了多少次購買，可以使用etl進行資料的清洗，並使用accumulator來進行資料的統計。

作為除錯工具，能夠觀察每個task的資訊，通過累加器可以在sparkui觀察到每次task所處理的記錄數。

累加器用來對資訊進行聚合，通常在向spark傳遞函式時，比如map()或者filter()傳條件時，可以使用驅動器程式中定義的變數，但是集群中執行的每個任務都會得到這些變數的乙份新的副本，更新這些副本的值也不會影響驅動器中的對應變數。如果我們想實現所有分片處理時更新共享變數的功能，那麼累加器可以實現我們

想要的效果。

廣播變數和累加器的使用場景

關於廣播變數和累加器

10 累加器和廣播變數

spark RDD累加器和廣播變數

廣播變數和累加器的使用場景

關於廣播變數和累加器

10 累加器和廣播變數

spark RDD累加器和廣播變數

相關推薦