Spark Streaming基礎概念介紹

2021-07-05 11:59:39 字數 490 閱讀 7725

有很多文章講解storm與spark streaming的區別,都非常詳細。

本文就介紹一下spark streaming比較重要的概念

一、術語介紹:

二、特點

三、節點失效

1、工作節點失效:由於輸入資料在hdfs或者有備份資料,每次轉換結果都是一致的,因此總會得到相同的結果。而對於輸出而言,只能確保「至少處理一次」。

2、驅動節點失效:如果driver掛掉了,那streamingcontext就消失了。通過ssc.checkpoint設定記錄點,週期性的將dstream元資訊寫入hdfs。一旦失效,就能恢復出來。通過呼叫函式streamingcontext.getorcreate來開啟這個特性。注意,如果程式重新編譯了,那就必須重建streamingcontext,否則就可能讀取時反序列化失敗。在驅動節點失效的情況下,standalone模式下可以自動恢復,而其他模式需要依賴其它機制。

具體實現原理見 spark streaming原始碼分析

Spark Streaming入門詳解

背景 使用spark主要是使用spark streaming,spark streaming的魔力之所在於 1.流式處理,如今是乙個流處理時代,一切與流不相關的都是無效的資料。3.spark streaming本身是乙個程式,spark streaming在處理資料的時候會不斷感知資料。所以對構建複...

Spark Streaming 程式監控

官網中指出,spark中專門為sparkstreaming程式的監控設定了額外的途徑,當使用streamingcontext時,在web ui中會出現乙個 streaming 的選項卡,在此選項卡內,統計的內容展示如下 這其中包括接受的記錄數量,每乙個batch內處理的記錄數,處理時間,以及總共消耗...

spark streaming讀取kafka示例

spark streaming讀取kafka示例,其中 spark streaming優雅的關閉策略優化部分參考 如何管理spark streaming消費kafka的偏移量部分參考 spark向kafka中寫入資料部分參考 object demo 建立streamingcontext return...