spark streaming中遇到的問題

task資料分配不均

由於我這個日誌分析系統是使用direct模式從kafka拉取資料的, 在direct模式下, 通過kafkautils.createdirectstream(…)獲取的dstream中的rdd的分割槽數是與kafka相對應的topic的分割槽數是一樣的,且分割槽中的資料分布情況也是一樣的.

這就導致了spark streaming獲取的rdd的分割槽中只有乙個是有資料的, 而task與分割槽也是一一對應關係, 所以就造成了只有乙個task在處理資料.

問題逐漸清晰了, 其實就是線上從kafka獲取資料時, kafka中的分割槽資料分布不均, 導致部分task處理的資料量特別少, 集群cpu資源得不到充分利用.

而解決辦法就是, 利用dstream.reparation(partitionnum), 對dstream進行重新分割槽, 請注意, reparation()函式會對資料做shuffle, 這就相當於將資料分配到了其他機器上.這樣就能提高並行度, 提高集群cpu資源利用率.

1.(提高成本)direct(直連的方法)需要採用checkpoint或者第三方儲存來維護offsets(偏移量),

而rexeiver-based是通過zookeeper來維護offsets,所以用direct提高了使用者的開發成本

2.(監控視覺化)receiver-based方式制定topic制定consumer的消費情況均能通過zookeeper來監控,而direct則沒有這種便利，如果做到監控並視覺化，則需要投入人力開發。