流式計算框架

s4s4會將資料裡的每一條記錄包裝成event事件，每個事件是乙個kv對，同時有eventtype來標示這個事件的型別。

pe是s4中的基本運算單元。每個pe只負責處理自己所關心的eventtype,並且只處理自己所對應的key值的event。pe處理後可能輸出乙個或多個event。就像hadoop上的map,reduce的介面實現類似的。

processingnode是乙個邏輯節點，負責監聽訊息的到來，對訊息進行處理，然後通過communication layer將event在集群中分發。

通過圖2的設計，可以保證，對應於相同event type，key和key值的event一定會被路由到對應的pn。

底下的communication layer和zookeeper共同完成了集群管理和自動failover功能。

flumebase

fb的優點就是基於streaming-sql形式，跟hive很類似，利用flume來採集相關資料。

首先客戶端向fb-server提交sql語句，如建立乙個streaming，即表定義語句，則fb-server會將該錶資訊放到記憶體的符號表中。

然後客戶端可以向fb-server提交乙個查詢語句，對sql語句進行語法分析與檢查，然後生成一棵flow樹，同時根據該流的型別，建立起監聽資料的工作單元。

比如是flume上收集的某個topic資料，就是向flume註冊該topic，當該topic有資料時，就向fb-server傳送過來，然後server端在執行flow樹上的操作，將最後的結果返回給客戶端。

storm

類似於hadoop框架的即時資料處理工具，是由backtype開發的，9月份會開源。

類擬的框架還有streambase,hstreaming等。

後記：這篇是半個月前寫的，最近一直在忙找工作的事情，自已也沒想到會這麼早離開第乙份正式工作，不過這個過程，倒是讓我學習了很多職場知識，可悲的是，這半個月基本上沒有看或寫一行**，接下來不能這樣了，得繼續拿起我的傢伙，幹活！