spark的cache和checkpoint的區別

2021-08-18 19:20:52 字數 344 閱讀 6229

要知道區別,就要首先知道實現的原理和使用的場景

cache就是講共用的或者重複使用的rdd按照持久化的級別進行快取。

checkpoint 就是將業務非常長的邏輯計算的中間結果快取到hdfs上,他的實現原理是:

首先找打stage最後的finalrdd,然後按照rdd的依賴關係回溯,找到使用checkpoint的rdd。

然後標記這個checkpoint的rdd

重新啟動乙個執行緒將checkpoint之前的rdd快取到hdfs上面。

最後rdd的依賴關係從checkpoint的位置切斷

為了更好提高spark的效能。可以在使用checkpoint之前,先cache一下。

spark中cache和checkpoint使用

1 cache cache是為了追求計算的速度 spark中計算任務在記憶體中,但是結果是儲存在磁碟中的,所以首次執行會慢,之後會拿磁碟中的計算結果,所以後面會快很多 通過對結果的rdd分布式資料集進行cache,將計算結果快取在記憶體中,這樣會比快取在磁碟中更快的讀取。比如計算log檔案的行數 s...

spark利用cache優化shuffle

cache表,資料放記憶體,資料被廣播到executor,將多份資料進行關聯是資料處理過程中非常普遍的用法,不過在分布式計算系統中,這個問題往往會變的非常麻煩,因為框架提供的 join 操作一般會將所有資料根據 key 傳送到所有的 reduce 分割槽中去,也就是 shuffle 的過程。造成大量...

session cookie和cache的區別

其中cookie是儲存在客戶端的一組資料,主要用來儲存使用者名稱等個人資訊。session session用來儲存每乙個使用者的專有資訊 session的生存期是使用者持續請求時間加上一段時間 一般是20分鐘左右 session資訊是儲存在web伺服器記憶體中的,儲存資料量可大可小 由於使用者停止使...