為什麼要做checkpoint

2021-09-12 11:27:47 字數 1008 閱讀 8385

為什麼要做checkpoint?

1.執行出的中間結果往往很重要,所以為了保證資料的安全性,要checkpoint

2.最好把checkpoint到hdfs中,這樣便於該集群所有的節點訪問到

3.在checkpoint之前最好先cache一下,這樣先把資料放到快取中。便於執行任務的呼叫,也便於在checkpoint的時候直接從快取拿到資料

在什麼時候做checkpoint?

在發生shuffle之後做checkpoint

checkpoint步驟:

1.建立checkpoint儲存目錄

sc.setcheckpointdir("hdfs://master4:9000/ck0001")

2.rdd1.cache()

3.rdd1.checkpoint()

事例測試:

1、啟動spark-shell

/opt/spark/bin/spark-shell

2.設定checkpoint目錄

sc.setcheckpointdir("hdfs://master4:9000/ck0001")

3.讀取wc目錄下的檔案,統計詞頻

val res=sc.textfile("hdfs://master4:9000/wc/").flatmap(_.split(" ")).map(

(_,1)).reducebykey(_+_)

4. 設定快取

res.cache()

5. 開始checkpoint,注意開啟checkpoint只會建立乙個空的資料夾ck0001,但是不會check。

res.checkpoint()

6. collect後開始check

res.collect

為什麼要做TDD?

tdd 測試驅動開發 在企業裡面是乙個熱點話題,即使tdd這個思想已經出現了20 30年。至今還有很多的公司和開發者在左右搖擺,到底是否要使用tdd。所以這篇文章筆者就和大家分享一下,為什麼需要做tdd。首先看看各個公司對tdd的看法 google 如果在tdd階段發現乙個bug,修復的成本就是5美...

為什麼為什麼為什麼為什麼為什麼你要做一名程式設計師?

from 本文是從 why why why why why are you a developer?這篇文章翻譯而來。做乙個程式設計師很忙,你需要去寫 去建立meme,去進行測試,以及隨時關注最新最熱的gem 開源軟體技術。最近,我一直在想讓自己的節奏慢下來,去做一些心裡一直想做但沒有去做的事,去思...

為什麼要做介面測試

現在介面測試很多團隊和企業都在要求,其實介面測試一直都存在,為何現在會突然開始要求更高呢?自動化測試分層概念的提出 到目前為止 ui 自動化都很難達到預期的效果,而單元測試成本和難度依舊太高 移動應用興起,出現多種前端的情況,ui 測試成本變高 微服務架構的流行,模組與模組的互動變成了服務與服務之間...