sparkStreaming核心剖析

receiver從kafka中接收的資料都是一條一條的資料，那麼接下來，會將這一條一條的資料儲存到currnetbuffer（arraybuffer）,這時有乙個執行緒（blockintervaltimer）（每隔一段時間（可配置）將currentbuffer中所有資料打包，封裝為乙個block）,然後將打包好的block推入到乙個佇列中，這個佇列中就是乙個乙個的block，然後有乙個blockpushingthread執行緒，將block推入到pusharraybuffer中，這時就有倆個去處，乙個是直接存入到blockmanager,另一邊就是存入到driver的receivertracker中，傳送到receivertracker,其中會將乙個乙個的blockid儲存到對應的streamid中，而且存入乙個hashmap,key就是time

關鍵點：

1. blockintervaltimer,會每隔一段時間（預設是200ms）,將接收到的資料，打包成乙個block

2. 每乙個block，都會通過blockmanager儲存乙份，然後還會傳送乙份blockinfo到receivertracker上，根據time時間來儲存（hashmap）

我們的jobgenerator，每隔一段時間（batch interval）的time,就去找receivertracker,將其中的，從上次劃分batch的時間，到目前為止的這個batch interval time間隔內的block，給封裝為乙個batch

其次，就會將這個batch中的資料建立rdd,這個rdd中有幾個partition呢？，這就是batch和block之間的乙個絕對微妙的地方，其實乙個batch內，在那段時間封裝了幾個block，那這幾個block,就代表，batch對應的rdd內會有幾個partition

這個batch對應的rdd的partition的數量，直接決定了資料處理階段的並行度，所以說，並行度和調優有很大的關係，如果想增加資料處理階段的效能那麼就考慮增加並行度，縮短blockinterval

sparkStreaming核心剖析

Spark Streaming入門詳解

Spark Streaming 程式監控

spark streaming讀取kafka示例

sparkStreaming核心剖析

Spark Streaming入門詳解

Spark Streaming 程式監控

spark streaming讀取kafka示例

相關推薦