大資料 SparkStreaming（六）

利用wal把資料寫入到hdfs中

步驟一：設定checkpoint目錄

streamingcontext.setcheckpoint(hdfsdirectory)

步驟二：開啟wal日誌

sparkconf.set("spark.streaming.receiver.writeaheadlog.enable", "true")

步驟三：需要reliable receiver當資料寫完了wal後，才告訴資料來源資料已經消費，對於沒有告訴資料來源的資料，可以從資料來源中重新消費資料。

步驟四：取消備份

使用storagelevel.memory_and_disk_ser來儲存資料來源，不需要字尾為2的策略了，因為hdfs已經是多副本了。

reliable receiver : 當資料接收到，並且已經備份儲存後，再傳送回執給資料來源

unreliable receiver : 不傳送回執給資料來源

wal使用在檔案系統和資料庫中用於資料操作的永續性，先把資料寫到乙個持久化的日誌中，然後對資料做操作，如果操作過程中系統掛了，恢復的時候可以重新讀取日誌檔案再次進行操作。

對於像kafka和flume這些使用接收器來接收資料的資料來源。接收器作為乙個長時間的任務執行在executor中，負責從資料來源接收資料，如果資料來源支援的話，向資料來源確認接收到資料，然後把資料儲存在executor的記憶體中，然後在exector上執行任務處理這些資料。

如果wal啟用了，所有接收到的資料會儲存到乙個日誌檔案中去（hdfs), 這樣儲存接收資料的永續性，此外，如果只有在資料寫入到log中之後接收器才向資料來源確認，這樣driver重啟後那些儲存在記憶體中但是沒有寫入到log中的資料將會重新傳送，這兩點保證的資料的無丟失。

開啟推測機制：

spark.speculation=true，每隔一段時間來檢查有哪些正在執行的task需要重新排程（spark.speculation.interval=100ms），假設總的task有10個，成功的task的數量 > 0.75 * 10（spark.speculation.quantile=0.75），正在執行的task的執行時間 > 1.5 * 成功執行task的平均時間（spark.speculation.multiplier=1.5），則這個正在執行的task需要重新等待排程。

注意：

在分布式環境中導致某個task執行緩慢的情況有很多，負載不均、程式bug、資源不均、資料傾斜等，而且這些情況在分布式任務計算環境中是常態。speculative task這種以空間換時間的思路對計算資源是種壓榨，同時如果speculative task本身也變成了slow task會導致情況進一步惡化。

大資料 SparkStreaming（六）

大資料什麼是大資料

大資料什麼是大資料？

大資料之大資料時代

大資料 SparkStreaming（六）

大資料 什麼是大資料

大資料 什麼是大資料？

大資料之大資料時代

相關推薦

大資料什麼是大資料

大資料什麼是大資料？