spark效能調優之廣播大變數

廣播變數

廣播變數允許程式設計師將乙個唯讀的變數快取在每台機器上，而不用在任務之間傳遞變數。廣播變數可被用於有效地給每個節點乙個大輸入資料集的副本。spark還嘗試使用高效地廣播演算法來分發變數，進而減少通訊的開銷。

spark的動作通過一系列的步驟執行，這些步驟由分布式的洗牌操作分開。spark自動地廣播每個步驟每個任務需要的通用資料。這些廣播資料被序列化地快取，在執行任務之前被反序列化出來。這意味著當我們需要在多個階段的任務之間使用相同的資料，或者以反序列化形式快取資料是十分重要的時候，顯式地建立廣播變數才有用。

其實就是sparkcontext的broadcast()方法，傳入你要廣播的變數，即可

final broadcast>> broadcast = sc.broadcast(fastutildatehourextractmap);

使用廣播變數的時候，

直接呼叫廣播變數（broadcast型別）的value() / getvalue() ，

可以獲取到之前封裝的廣播變數

map> datehourextractmap =

broadcast.value();

比如，50個executor，1000個task。乙個map，10m：

預設情況下，1000個task，1000份副本。10g的資料，網路傳輸，在集群中，耗費10g的記憶體資源。

如果使用了廣播變數。50個execurtor，50個副本。500m的資料，網路傳輸，而且不一定都是從driver傳輸到每個節點，還可能是就近從最近的

節點的executor的bockmanager上拉取變數副本，網路傳輸速度大大增加；500m的記憶體消耗。

真實的使用場景待後續開發！

spark效能調優之廣播大變數

spark常規效能調優四廣播大變數

Spark效能調優之在實際專案中廣播大變數

Spark效能調優之Shuffle調優總結

spark效能調優之廣播大變數

spark常規效能調優四 廣播大變數

Spark效能調優之 在實際專案中廣播大變數

Spark效能調優之Shuffle調優總結

相關推薦

spark常規效能調優四廣播大變數

Spark效能調優之在實際專案中廣播大變數