Apache Flink 資料流程式設計模型

2022-05-27 07:57:06 字數 1227 閱讀 5322

flink 提供了不同層次的api來進行 流處理 或者批處理

flink天生就是並行分布式的,乙個stream會有多個stream partitions。乙個operator會有多個operator subtasks,operator subtasks彼此獨立,它們可能在不同的機器  容器 再或者 執行緒當中分別執行。

operator subtasks的數量取決於並行度,

流在兩個operators間有one-to-one (or forwarding) pattern, or in a redistributing pattern兩種模式

在無邊界流上執行count操作是不可能的,但是count over the last 5 minutes」, or 「sum of the last 100 elements」確是可以的。

windows可以是time driven (example: every 30 seconds) or data driven (example: every 100 elements)的

當提到時間,我們指的可能是不同的時間種類

event time:事件被建立的時間

ingestion time:在源頭進入flink資料流的時間

processing time:事件被執行的時間

雖然資料流中的許多操作只是一次檢視乙個單獨的事件(例如event parser),但有些操作會記住多個事件之間的資訊(例如window operators)。這些操作稱為有狀態的。

flink通過stream replay and checkpointing保證容錯性

TCP互動資料流 成塊資料流

tcp資料流分類 基於tcp的各類解決方案,可以根據資料吞吐量來大致分成兩大類 1 互動資料型別,例如telnet,ssh,這種型別的協議在大多數情況下只是做小流量的資料交換,比如說按一下鍵盤,回顯一些文字等等。2 資料成塊型別,例如ftp,這種型別的協議要求tcp能盡量的運載資料,把資料的吞吐量做...

資料流測試

回顧 路徑測試將程式 看做是一種有向圖,根據有向圖的拓撲結構結合某些覆蓋指標來設計測試用例。然而程式中不同語句之間往往會有依賴關係,使得拓撲結構上可行的路徑,在邏輯上並不可行,資料流測試可以解決上述問題。資料流測試指關注變數接收值的點和使用 或引用 這些值的點的結構性測試形式 資料流測試用作路徑測試...

單向資料流

props是單向繫結的,當父元件的屬性變化時,將傳導給子元件,但是不會反過來 而且不允許子元件直接修改父元件中的資料,報錯 解決方式 方式1 如果子元件想把它作為區域性資料來使用,可以將資料存入另乙個變數中再操作,不影響父元件中的資料 方式2 如果子元件想修改資料並且同步更新到父元件,兩個方法 a....