Flink的滾動視窗 會話視窗 滑動視窗及其應用

2021-10-09 22:13:21 字數 1098 閱讀 1074

flink作業中的視窗 是指一種對無限資料流設定有限資料集,從而實現了處理無線資料流的機制。視窗本身只是個劃分資料集的依據,它並不儲存資料。

當我們需要在時間視窗維度上對資料進行聚合時,視窗是流處理應用中經常需要解決的問題。flink的視窗運算元為我們提供了方便易用的api,我們可以將資料流切分成乙個個視窗,對視窗內的資料進行處理

視窗主要有兩種,一種基於時間(time-based window),一種基於數量(count-based window)。本文主要討論time-based window,在flink原始碼中,用timewindow表示。每個timewindow都有乙個開始時間和結束時間,表示乙個左閉右開的時間段。flink為我們提供了一些內建的windowassigner,如滾動視窗、滑動視窗和會話視窗

滾動視窗模式下視窗之間不重疊,且視窗長度(size)是固定的。我們可以用tumblingeventtimewindowstumblingprocessingtimewindows建立乙個基於event time或processing time的滾動時間視窗。視窗的長度可以用org.apache.flink.streaming.api.windowing.time.time中的secondsminuteshoursdays來設定。

滑動視窗以乙個步長(slide)不斷向前滑動,視窗的長度固定。使用時,我們要設定slide和size。slide的大小決定了flink以多快的速度來建立新的視窗,slide較小,視窗的個數會很多。slide小於視窗的size時,相鄰視窗會重疊,乙個元素會被分配到多個視窗;slide大於size,有些元素可能被丟掉。

會話視窗模式下,兩個視窗之間有乙個間隙,被稱為session gap。當乙個視窗在大於session gap的時間內沒有接收到新資料時,視窗將關閉。在這種模式下,視窗的長度是可變的,每個視窗的開始和結束時間並不是確定的。我們可以設定定長的session gap,也可以使用sessionwindowtimegapextractor動態地確定session gap的長度。

Flink會話視窗測試

一 測試結論 1 會話視窗的間隔時間和水位線作用一樣,表示輸出現在時間 間隔時間之前所有未結算時間的資料,作用類似於水位線,但是和水位線開閉不一樣。2 會話視窗顯示的資料是 上乙個時間 水位線 間隔時間 2ms 現在的時間 水位線 間隔時間 1ms 之間的資料,注意左右都是閉區間。二 測試資料 設定...

Flink流處理的時間視窗

對於流處理系統來說,流入的訊息是無限的,所以對於聚合或是連線等操作,流處理系統需要對流入的訊息進行分段,然後基於每一段資料進行聚合或是連線等操作。訊息的分段即稱為視窗,流處理系統支援的視窗有很多態別,最常見的就是時間視窗,基於時間間隔對訊息進行分段處理。本節主要介紹flink流處理系統支援的各種時間...

視窗滾動條

問 為什麼我移動滑動塊時沒有相應的動作?比如,滑動塊總是在最上面,看起來 好象 wm vscroll訊息沒有傳送,或者函式onvscroll 沒有收到該訊息.答 vc文件cwnd類說明中指出 cwnd同樣也能使你的程式中建立乙個新的子窗 口.從cwnd 中繼承乙個類,加入成員變數,用以儲存你程式中自...