Checkpoint的原理剖析

作用：spark的容錯機制，避免重新計算資料

1.如何進行checkpoint？

sparkcontext.setcheckpointdir()

rdd.checkpoint()

具體轉變：

對rdd呼叫checkpoint()方法之後，它就接受了rddcheckpointdata物件的管理

rddcheckpointdata物件會負責將呼叫了checkpoint()方法的rdd的狀態設定為markedforcheckpoint

rdd所在job執行結束後，會呼叫job中最後乙個rdd的docheckpoint()方法，沿著finalrdd的lineage向上查詢，標記為markedforcheckpoint的rdd，並將其標記為checkpointingprogress

啟動乙個單獨的job，來講lineage中，標記為checkpointingprogress的rdd，進行checkpoint操作，也就是將其資料寫入 sparkcontext.setcheckpointdir()方法設定的檔案系統中

將rdd的資料進行checkpoint之後，會改變rdd的lineage，也就是說，會清楚掉rdd所有的依賴，並強行將其父rdd設定為乙個checkpointrdd，而且rdd狀態變成checkpointed

2.checkpoint與持久化的不同：

（1）前者單獨存放在高容錯的hdfs檔案系統，後者放在記憶體中

（2）前者改變了被呼叫rdd的lineage，後者沒有

3.rdd.iterator()_也會讀取checkpoint資料

4.給checkpoint的rdd，建議先進行persist(storagelevel.disk_only)

原始碼：org.apache.spark.rdd.rdd.scala

iterator()

computeorreadcheckpoint()

checkpointrdd.scala