Spark Streaming反壓機制探秘

spark streaming中的反壓機制是spark 1.5.0推出的新特性，可以根據處理效率動態調整攝入速率。

當批處理時間(batch processing time)大於批次間隔(batch interval，即 batchduration)時,說明處理資料的速度小於資料攝入的速度，持續時間過長或源頭資料暴增，容易造成資料在記憶體中堆積，最終導致executor oom或任務奔潰。

在這種情況下，若是基於kafka receiver的資料來源，可以通過設定spark.streaming.receiver.maxrate來控制最大輸入速率；若是基於direct的資料來源(如kafka direct stream)，則可以通過設定spark.streaming.kafka.maxrateperpartition來控制最大輸入速率。當然，在事先經過壓測，且流量高峰不會超過預期的情況下，設定這些引數一般沒什麼問題。但最大值，不代表是最優值，最好還能根據每個批次處理情況來動態預估下個批次最優速率。在spark 1.5.0以上，就可通過背壓機制來實現。開啟反壓機制，即設定spark.streaming.backpressure.enabled為true，spark streaming會自動根據處理能力來調整輸入速率，從而在流量高峰時仍能保證最大的吞吐和效能。

override def onbatchcompleted(batchcompleted: streaminglistenerbatchcompleted)  computeandpublish(processingend, elems, workdelay, waitdelay)
}

可以看到，接著又呼叫的是computeandpublish方法，如下:

private def computeandpublish(time: long, elems: long, workdelay: long, waitdelay: long): unit =
future[unit] 
}

更深一層，具體呼叫的是rateestimator.compute方法來預估新速率，如下:

def compute(
time: long,
elements: long,
processingdelay: long,
schedulingdelay: long): option[double]

注意：只有 3 啟用的時候，每次消費的最大資料量，就是設定的資料量，如果不足這個數，就有多少讀多少，如果超過這個數字，就讀取這個數字的設定的值只有 1+3 啟用的時候，每次消費讀取的數量最大會等於3設定的值，最小是spark根據系統負載自動推斷的值，消費的資料量會在這兩個範圍之內變化根據系統情況，但第一次啟動會有多少讀多少資料。此後按 1+3 設定規則執行

1+2+3 同時啟用的時候，跟上乙個消費情況基本一樣，但第一次消費會得到限制，因為我們設定第一次消費的頻率了。

//啟用反壓機制 conf.set("spark.streaming.backpressure.enabled","true") //最小攝入條數控制 conf.set("spark.streaming.backpressure.pid.minrate","1") //最大攝入條數控制 conf.set("spark.streaming.kafka.maxrateperpartition","12") //初始最大接收速率控制

conf.set("spark.streaming.backpressure.initialrate","10")

要保證反壓機制真正起作用前spark 應用程式不會崩潰,需要控制每個批次最大攝入速率。以direct stream為例，如kafka direct stream,則可以通過spark.streaming.kafka.maxrateperpartition引數來控制。此引數代表了每秒每個分割槽最大攝入的資料條數。假設batchduration為10秒,spark.streaming.kafka.maxrateperpartition為12條,kafka topic 分割槽數為3個，則乙個批(batch)最大讀取的資料條數為360條(31210=360)。同時，需要注意，該引數也代表了整個應用生命週期中的最大速率，即使是背壓調整的最大值也不會超過該引數。

Spark Streaming反壓機制探秘

Spark Streaming反壓機制

Spark Streaming反壓機制原理及使用

Spark Streaming入門詳解

Spark Streaming反壓機制探秘

Spark Streaming反壓機制

Spark Streaming反壓機制原理及使用

Spark Streaming入門詳解

相關推薦