大資料開發 Spark 閉包的理解

閉包是乙個函式，返回值依賴於宣告在函式外部的乙個或多個變數。閉包通常來講可以簡單的認為是可以訪問乙個函式裡面區域性變數的另外乙個函式。

如下面這段匿名的函式：

val multiplier = (i:int) => i * 10

函式體內有乙個變數 i，它作為函式的乙個引數。如下面的另一段**：

val multiplier = (i:int) => i * factor

在multiplier中有兩個變數：i 和 factor。其中的乙個 i 是函式的形式引數，在multiplier函式被呼叫時，i 被賦予乙個新的值。然而，factor不是形式引數，而是自由變數，考慮下面**：

var factor = 3  val multiplier = (i:int) => i * factor

這裡我們引入乙個自由變數factor，這個變數定義在函式外面。

這樣定義的函式變數multiplier成為乙個"閉包"，因為它引用到函式外面定義的變數，定義這個函式的過程是將這個自由變數捕獲而構成乙個封閉的函式

完整的例子：

object test   
var factor = 3 
val multiplier = (i:int) => i * factor 
}

先來看下面一段**：

val data=array(1, 2, 3, 4, 5)
var counter = 0
var rdd = sc.parallelize(data)
// ？？？？ 這樣做會怎麼樣
rdd.foreach(x => counter += x)
println("counter value: " + counter)

首先肯定的是上面輸出的結果是0，park將rdd操作的處理分解為tasks，每個task由executor執行。在執行之前，spark會計算task的閉包。閉包是executor在rdd上進行計算的時候必須可見的那些變數和方法（在這種情況下是foreach()）。閉包會被序列化並傳送給每個executor，但是傳送給executor的是副本，所以在driver上輸出的依然是counter本身，如果想對全域性的進行更新，用累加器，在spark-streaming裡面使用updatestatebykey來更新公共的狀態。

另外在spark中的閉包還有別的作用，

1.清除driver傳送到executor上的無用的全域性變數等，只複製有用的變數資訊給executor

2.保證傳送到executor上的是序列化以後的資料

比如在使用dataset時候 case class的定義必須在類下，而不能是方法內，即使語法上沒問題，如果使用過json4s來序列化，implicit val formats = defaultformats的引入最好放在類下，否則要單獨將這個format序列化，即使你沒有使用到它別的東西。

閉包在spark的整個生命週期中處處可見，就比如從driver上拷貝的所有資料都需要序列化 + 閉包的方式到executor上的。

大資料開發 Spark 閉包的理解

Spark中閉包的理解

理解spark中的閉包問題

閉包的理解

大資料開發 Spark 閉包的理解

Spark中閉包的理解

理解spark中的閉包問題

閉包的理解

相關推薦