flink和spark的區別

1、spark無狀態，flink有狀態

spark本身是無狀態的，所以我們可以把它看成乙個rdd乙個運算元乙個rdd的去處理，就是說可以看成分段處理。

但是flink是事件驅動型應用是一類具有狀態的應用，我們要把它看成乙個個event記錄去處理，當遇到視窗時會進行阻塞等待，視窗的聚合操作是無狀態的。過了視窗後datastream的運算元聚合操作就是有狀態的操作了，所以flink要把聚合操作都放到視窗操作之前，才能進行無狀態的聚合操作。而spark全程都是無狀態的，所以在哪聚合都可以。

2、視窗的概念

window將乙個無限的stream拆分成有限大小的「buckets」桶，我們可以在這些桶上做計算操作。當該window有資料是運算元會執行，當window沒資料時運算元不執行。

3、watermark概念

每個event都帶有eventtime。watermark就等於當前所有到達資料中的maxeventtime - 延遲時長。一旦資料攜帶的watermark比當前未觸發的視窗的停止時間要晚，那麼就會觸發相應視窗的執行。

批處理的特點是有界、持久、大量，非常適合需要訪問全套記錄才能完成的計算工作，一般用於離線統計。

流處理的特點是無界、實時,無需針對整個資料集執行操作，而是對通過系統傳輸的每個資料項執行操作，一般用於實時統計。

在spark的世界觀中，一切都是由批次組成的，離線資料是乙個大批次，而實時資料是由乙個乙個無限的小批次組成的。

而在flink的世界觀中，一切都是由流組成的，離線資料是有界限的流，實時資料是乙個沒有界限的流，這就是所謂的有界流和無界流。

無界資料流：無界資料流有乙個開始但是沒有結束，它們不會在生成時終止並提供資料，必須連續處理無界流，也就是說必須在獲取後立即處理event。對於無界資料流我們無法等待所有資料都到達，因為輸入是無界的，並且在任何時間點都不會完成。處理無界資料通常要求以特定順序（例如事件發生的順序）獲取event，以便能夠推斷結果完整性。

有界資料流：有界資料流有明確定義的開始和結束，可以在執行任何計算之前通過獲取所有資料來處理有界流，處理有界流不需要有序獲取，因為可以始終對有界資料集進行排序，有界流的處理也稱為批處理。

flink和spark的區別

Flink和spark的對比

Spark與Flink的對比

Spark和Flink當中的常用運算元詳解

flink和spark的區別

Flink和spark的對比

Spark與Flink的對比

Spark和Flink當中的常用運算元詳解

相關推薦