storm架構及原理

storm 架構與原理

1.1 storm是什麼

1.2 storm 與傳統的大資料

2.1 hadoop架構簡介

2.2 hadoop架構的瓶頸

3.1 storm架構的設計

storm架構中使用spout/bolt程式設計模型來對訊息進行流式處理｡訊息流是storm中對資料的基本抽象,乙個訊息流是對一條輸入資料的封裝,源源不斷輸入的訊息流以分布式的方式被處理，spout元件是訊息生產者，是storm架構中的資料輸入源頭，它可以從多種異構資料來源讀取資料，並發射訊息流，bolt元件負責接收spout元件發射的資訊流，並完成具體的處理邏輯｡在複雜的業務邏輯中可以串聯多個bolt元件，在每個bolt元件中編寫各自不同的功能，從而實現整體的處理邏輯。

3.2 storm架構與hadoop架構的對比

3.3 storm的優點

解決方案

開發商型別

描述storm

twitter

流式處理

twitter 的新流式大資料分析解決方案

s4yahoo!

流式處理

來自 yahoo! 的分布式流計算平台

hadoop

apache

批處理mapreduce 正規化的第乙個開源實現

spark

uc berkeley amplab

批處理支援記憶體中資料集和恢復能力的最新分析平台

disco

nokia

批處理nokia 的分布式 mapreduce 框架

hpcc

lexisnexis

批處理hpc 大資料集群

5.1 topology

下圖是storm的資料互動圖，可以看出兩個模組nimbus和supervisor之間沒有直接互動。狀態都是儲存在zookeeper上，worker之間通過netty傳送資料。storm與zookeeper之間的互動過程，暫時不細說了。重要的一點:storm所有的元資料資訊儲存在zookeeper中！

5.2 資料模型turple

5.3 worker（程序）

5.4 spouts

5.5 bolts

5.6 reliability

5.7 tasks6.1 stream groupings

6.2 storm 記錄級容錯

可能有些細心的同學會發現，容錯過程存在乙個可能出錯的地方，那就是，如果生成的tuple id並不是完全各異的，acker可能會在訊息單元完全處理完成之前就錯誤的計算為0｡這個錯誤在理論上的確是存在的，但是在實際中其概率是極低極低的，完全可以忽略。

6.3 storm的事務拓撲7.1 example of a running topology

7.2 併發度的配置有效的順序

storm架構及原理

Storm架構執行原理

Spark架構及原理

storm系統架構學習

storm架構及原理

Storm架構執行原理

Spark架構及原理

storm系統架構學習

相關推薦