spark消費kafka的兩種方式

一、基於receiver的方式

這種方式使用receiver來獲取資料。receiver是使用kafka的高層次consumer api來實現的。receiver從kafka中獲取的資料都是儲存在spark executor的記憶體中的（如果突然資料暴增，大量batch堆積，很容易出現記憶體溢位的問題），然後spark streaming啟動的job會去處理那些資料。

然而，在預設的配置下，這種方式可能會因為底層的失敗而丟失資料。如果要啟用高可靠機制，讓資料零丟失，就必須啟用spark streaming的預寫日誌機制（write ahead log，wal）。該機制會同步地將接收到的kafka資料寫入分布式檔案系統（比如hdfs）上的預寫日誌中。所以，即使底層節點出現了失敗，也可以使用預寫日誌中的資料進行恢復。

需要注意的要點

1、kafka中的topic的partition，與spark中的rdd的partition是沒有關係的。所以，在kafkautils.createstream()中，提高partition的數量，只會增加乙個receiver中，讀取partition的執行緒的數量。不會增加spark處理資料的並行度。

2、可以建立多個kafka輸入dstream，使用不同的consumer group和topic，來通過多個receiver並行接收資料。

3、如果基於容錯的檔案系統，比如hdfs，啟用了預寫日誌機制，接收到的資料都會被複製乙份到預寫日誌中。因此，在kafkautils.createstream()中，設定的持久化級別是storagelevel.memory_and_disk_ser。

二、基於direct的方式

這種新的不基於receiver的直接方式，是在spark 1.3中引入的，從而能夠確保更加健壯的機制。替代掉使用receiver來接收資料後，這種方式會周期性地查詢kafka，來獲得每個topic+partition的最新的offset，從而定義每個batch的offset的範圍。當處理資料的job啟動時，就會使用kafka的簡單consumer api來獲取kafka指定offset範圍的資料。

這種方式有如下優點：

1、簡化並行讀取：如果要讀取多個partition，不需要建立多個輸入dstream然後對它們進行union操作。spark會建立跟kafka partition一樣多的rdd partition，並且會並行從kafka中讀取資料。所以在kafka partition和rdd partition之間，有乙個一對一的對映關係。

2、高效能：如果要保證零資料丟失，在基於receiver的方式中，需要開啟wal機制。這種方式其實效率低下，因為資料實際上被複製了兩份，kafka自己本身就有高可靠的機制，會對資料複製乙份，而這裡又會複製乙份到wal中。而基於direct的方式，不依賴receiver，不需要開啟wal機制，只要kafka中作了資料的複製，那麼就可以通過kafka的副本進行恢復。

3、一次且僅一次的事務機制：

對比：基於receiver的方式，是使用kafka的高階api來在zookeeper中儲存消費過的offset的。這是消費kafka資料的傳統方式。這種方式配合著wal機制可以保證資料零丟失的高可靠性，但是卻無法保證資料被處理一次且僅一次，可能會處理兩次。因為spark和zookeeper之間可能是不同步的。

基於direct的方式，使用kafka的簡單api，spark streaming自己就負責追蹤消費的offset，並儲存在checkpoint中。spark自己一定是同步的，因此可以保證資料是消費一次且僅消費一次。

在實際生產環境中大都用direct方式

org.apache.spark spark-core_2.11 1.6.1 org.apache.spark spark-streaming_2.11 1.6.1 org.apache.spark spark-streaming-kafka_2.11 1.6.1

完整測試**

import kafka.serializer.stringdecoder
import org.apache.spark.sparkconf
import org.apache.spark.streaming.
import org.apache.spark.streaming.kafka._
/** * created by administrator on 2017/6/16.
*/object kafkaconsumer 
/***bin/kafka-console-producer.sh –broker-list localhost:9092 –topic mytest
*/def createstream()=
def direct()=
}

spark消費kafka的兩種方式

spark兩種kafka偏移量維護方式

RocketMQ的兩種消費模式和重置消費位點

兩種消費觀念

spark消費kafka的兩種方式

spark兩種kafka偏移量維護方式

RocketMQ的兩種消費模式和重置消費位點

兩種消費觀念

相關推薦