spark持久化（快取）

1、惰性求值：

rdd轉化過程都是惰性求值的。這意味著在被呼叫行動操作之前spark不會開始計算，spark會在內部記錄下所要求執行的操作的相關資訊，我們可以把每個rdd看作我們通過轉化操作構建出來的、記錄如何計算資料的指定列表。把資料讀取到rdd的操作同樣是惰性的。

2、持久化快取

sparkrdd是惰性求值的，而有時候我們希望能夠多次使用同乙個rdd。如果簡單地對rdd呼叫行動操作，spark每次都會重算rdd以及它的所有依賴。這在迭代演算法中消耗很大。

此時我們可以讓spark對資料進行持久化操作。當我們讓spark持久化儲存乙個rdd時，計算出的rdd節點會分別儲存它們所求出的rdd分割槽資料。如果乙個有持久化資料的節點發生故障，spark會在需要用到快取資料時重算丟失的資料分割槽。我們可以把我們的資料備份到多個節點避免這種情況發生。

注意：序列化是執行上面的基礎。

val result = input.map { x => x * x      result.persist(storagelevel.disk_only)      println(result.count())
println(result.collect
.mkstring(","))

spark還有乙個unpersist（）方法，呼叫該方法可以手動把持久化rdd從快取中移除。