流式計算框架

2021-05-27 21:43:43 字數 964 閱讀 2634

s4s4會將資料裡的每一條記錄包裝成event事件,每個事件是乙個kv對,同時有eventtype來標示這個事件的型別。

pe是s4中的基本運算單元。每個pe只負責處理自己所關心的eventtype,並且只處理自己所對應的key值的event。pe處理後可能輸出乙個或多個event。就像hadoop上的map,reduce的介面實現類似的。

processingnode是乙個邏輯節點,負責監聽訊息的到來,對訊息進行處理,然後通過communication layer將event在集群中分發。

通過圖2的設計,可以保證,對應於相同event type,key和key值的event一定會被路由到對應的pn。

底下的communication layer和zookeeper共同完成了集群管理和自動failover功能。

flumebase

fb的優點就是基於streaming-sql形式,跟hive很類似,利用flume來採集相關資料。

首先客戶端向fb-server提交sql語句,如建立乙個streaming,即表定義語句,則fb-server會將該錶資訊放到記憶體的符號表中。

然後客戶端可以向fb-server提交乙個查詢語句,對sql語句進行語法分析與檢查,然後生成一棵flow樹,同時根據該流的型別,建立起監聽資料的工作單元。

比如是flume上收集的某個topic資料,就是向flume註冊該topic,當該topic有資料時,就向fb-server傳送過來,然後server端在執行flow樹上的操作,將最後的結果返回給客戶端。

storm

類似於hadoop框架的即時資料處理工具,是由backtype開發的,9月份會開源。

類擬的框架還有streambase,hstreaming等。

後記:這篇是半個月前寫的,最近一直在忙找工作的事情,自已也沒想到會這麼早離開第乙份正式工作,不過這個過程,倒是讓我學習了很多職場知識,可悲的是,這半個月基本上沒有看或寫一行**,接下來不能這樣了,得繼續拿起我的傢伙,幹活!

實時流式計算框架 JStorm

1.本地除錯 a.步驟 生成topology 實現spout介面 實現bolt介面 編譯執行 b.加入依賴 dependency groupid com.alibaba.jstorm groupid artifactid jstorm core artifactid version 2.1.1 ve...

Storm 高效能流式計算處理框架

storm supervisor worker topology yarn mrstrom spout bolt mrdag有向無環圖 tuple stream spout bolt fields分組 all global none direct local or shuffle worker 程序...

流式計算簡介

日常工作中,我們一般會先把資料儲存在一張表中,然後對這張表的資料進行加工 分析。那這裡是先儲存在表中,那就會涉及到時效性這個概念。如果我們處理以年,月為單位的級別的資料處理,進行統計分析,個性化推薦,那麼資料的的最新日期離當前有幾個甚至上月都沒有問題。但是如果我們處理的是以天為級別,或者以小時甚至更...