大資料學習筆記 spark資源排程

val works = new hashset[workinfo]()  //儲存worker節點資源資訊
val waitingdrivers = new arraybuffer[driverinfo]() //儲存driver節點申請的資源資訊

val works = new hashsetworkinfo

works 集合採用hashset陣列儲存work的節點資訊，可以避免存放重複的work節點.(worker節點在異常掛掉以後,在下一次通訊中,會將worker的節點資訊從set集合中刪除,但是如果worker節點掛掉後,在下一次通訊之前又恢復工作,那麼set中的節點資訊是不會被刪除的)

val waitingdrivers = new arraybufferdriverinfo

當客戶端向master為driver申請資源時，會將要申請的driver的相關資訊封裝到master節點的driverinfo這個泛型裡，然後新增到waitingdrivers 裡。master會監控這個waitingdrivers 物件，當waitingdrivers集合中的元素不為空時，說明有客戶端向master申請資源了。此時應該先檢視一下works集合，找到符合要求的worker節點，啟動driver。當driver啟動成功後，會把這個申請資訊從waitingdrivers 物件中移除。

注意點：上面說到master會監控這三個集合，那麼到底是怎麼監控的呢？？？

master並不是分出來執行緒專門的對這三個集合進行監控，相對而言這樣是比較浪費資源的。master實際上是『監控』這三個集合的改變，當這三個集合中的某乙個集合發生變化時（新增或者刪除），那麼就會呼叫schedule()方法。schedule方法中封裝了上面提到的處理邏輯。

假設我們有5個worker，每個worker節點提供10g記憶體，10個core。

1、spark-submit --master … --executor-cores 2 --executor-memory 2g … 在集群中會啟動多少個executor程序？？？

252、spark-submit --master … --executor-cores 3 --executor-memory 4g … 在集群中會啟動多少個executor程序？？？

105、啟動executor個數的公式：*min(min(wm/em,wc/ec)wn,tec/ec)

注：–executor-cores ： ec

--executor-memory ： em

--total-executor-cores ： tec

worker_num : wn

worker_memory : wm

worker_core : wc

大資料學習筆記 spark資源排程

spark 資源引數調優

大資料學習筆記（六） Spark的RDD

Spark調優（一）資源優化篇

大資料學習筆記 spark資源排程

spark 資源引數調優

大資料學習筆記（六） Spark的RDD

Spark調優（一）資源優化篇

相關推薦