Storm 核心概念

2021-08-22 11:34:46 字數 1394 閱讀 8659

核心概念

topologies 拓撲,將整個流程串起來

計算拓撲,由spout和bolt組成

類似於mr作業

mr最終要完成,topology會一直執行除非自己殺死

對應的資源

topologybuilder

running topologies on a production cluster

local mode

streams 流,資料流,水流

訊息流,抽象概念,沒有邊界的tuple構成

乙個stream是由一系列有序的tuple組成。

tuple包含int,long,shorts,byte,string,double floats and byte arrays

對應資源

tuple

outputfieldsdeclarer

serialization

spouts 產生資料/水流的東西

訊息流的源頭,topology的訊息生產者

可靠和不可靠

可以傳送多個stream

最主要的方法nexttuple,傳送新的tuple到拓撲裡面或者簡單的返回什麼都不做

ack 和fail方法 保證資料是否正常處理。自動呼叫

僅僅會在可靠的spout中呼叫

對應的資源

irichspout

如何保證訊息被處理,ack和fail

bolts 處理資料/水流的東西

訊息處理單元,可以做過濾,聚合,查詢/寫資料庫的操作

主要方法

execute 執行

在bolt中啟動多執行緒

對應的資源

irichbolt

ibasicbolt

outputcollector

tuple 資料/水

訊息/資料 傳遞的基本單元

stream grouping

reliability 可靠性

task

workers

每乙個worker程序是乙個物理jvm程序,執行多有拓撲的子集

核心概念講解-地鐵執行模型

地鐵由多個車廂構成;

車廂中有很多乘客

每個站點有不少的人上車和下車

地鐵有始發站,經停站,終點站;

地鐵停靠站通過地鐵排程中心進行控制

storm

流理解成地鐵

tuple資料----人

在bolt中處理業務邏輯,其實就是針對tuple進行處理

流程圖

一 Storm簡介與核心概念

1 storm簡介 storm是乙個開源的 分布式實時計算系統。能夠實現高頻資料和大規模資料的實時處理。2 核心概念 topology 拓撲,將整個流程串起來 計算拓撲,由spout和bolt組成的 stream 流,資料流,水流 訊息流,抽象概念,沒有邊界的tuple構成,乙個stream由多個t...

Storm篇 Storm基礎概念

一 前述 storm是個實時的 分布式以及具備高容錯的計算系統,storm程序常駐記憶體,storm資料不經過磁碟,在記憶體中處理。二 相關概念 1.非同步 流式處理 非同步 客戶端提交資料進行結算,並不會等待資料計算結果。2.同步 實時請求應答服務 同步 客戶端提交資料請求之後,立刻取得計算結果並...

storm核心元件

nimbus 負責資源分配和任務排程。supervisor 負責接受nimbus分配的任務,啟動和停止屬於自己管理的worker程序。通過配置檔案設定當前 supervisor 上啟動多少個 worker worker 執行具體處理元件邏輯的程序。worker執行的任務型別只有兩種,一種是spout...