RDD的檢查點（checkpoint）機制

rdd的快取能夠在第一次計算完成後，將計算結果儲存到記憶體、本地檔案系統或者tachyon中。通過快取，spark避免了rdd上的重複計算，能夠極大地提公升計算速度。但是，如果快取丟失了，則需要重新計算。如果計算特別複雜或者計算耗時特別多，那麼快取丟失對於整個job的影響是不容忽視的。

為了避免快取丟失重新計算帶來的開銷，spark又引入了檢查點（checkpoint）機制。

快取是在計算結束後，直接將計算結果通過使用者定義的儲存級別（儲存級別定義了快取儲存的介質，現在支援記憶體、本地檔案系統和tachyon）寫入不同的介質。

而檢查點不同，它是在計算完成後，重新建立乙個job來計算。

為了避免重複計算，推薦先將rdd快取，這樣就能保證檢查點的操作可以快速完成。

設定檢查點：

//設定檢查點目錄儲存在hdfs上,並使用checkpoint設定檢查點,該操作屬於懶載入 sc.setcheckpointdir("hdfs://ip:9000/checkpoint/")

rdd.checkpoint()

RDD 八快取與檢查點

rdd通過persist方法或cache方法可以將前面的計算結果快取，預設情況下persist 會把資料以序列化的形式快取在jvm 的堆空間中。但是並不是這兩個方法被呼叫時立即快取，而是觸發後面的action時，該rdd的計算結果將會被快取在計算節點的記憶體中，並供後面重用。示例如下 def mai...

檢查點為什麼要插入檢查點檢查點的作用

一為什麼要插入檢查點檢查點的作用檢查點記錄被測系統的預期結果，在執行過程中，qtp將預期結果與實際執行結果進行比較，若一致，測試結果報告中，檢查點為passed，否則為failed。只有插入檢查點的才具有測試能力，檢查功能點是否實現二標準檢查點 standard checkpoint 檢...

RDD 中的檢查點機制的理解

檢查點機制目的資料的持久化安全性 hdfs 檢查點機制適用場合 dga 中的 lineage過長在寬依賴上設定檢查點更好檢查點將 rdd 的資料進行持久化到檔案系統 hdfs 中問題 checkpoint 執行跟 cache 一樣麼？如下這裡的 hdfs 路徑注意自己本地 host...

RDD的檢查點（checkpoint）機制

RDD 八 快取與檢查點

檢查點 為什麼要插入檢查點 檢查點的作用

RDD 中的檢查點機制的理解

相關推薦

RDD 八快取與檢查點

檢查點為什麼要插入檢查點檢查點的作用