Spark （原始碼）總結雜

1.spark-submit 指令碼，在指令碼裡呼叫了org.apache.spark.deloy.sparksubmit 類

2.sparksubmit.scala main方法

override def main(args: array[string]): unit = 
}}

private def submit(args: sparksubmitarguments): unit =  catch  was not a rest server. " +
"falling back to legacy submission gateway instead.")
args.userest = false
submit(args)
}// in all other modes, just run the main class as prepared
} else 
}

4.sparksubmit.scala runmain()

該方法主要是確定mainclass，使用classfromname，獲取類物件，然後採用對映呼叫main方法

5.client main方法

在main方法中，new clientendpoint 物件建立過程中，會向master傳送registerdriver訊息。

object client 
// scalastyle:on println
val conf = new sparkconf()
val driverargs = new clientarguments(args)
if (!conf.contains("spark.rpc.asktimeout")) 
logger.getrootlogger.setlevel(driverargs.loglevel)
val rpcenv =
rpcenv.create("driverclient", utils.localhostname(), 0, conf, new securitymanager(conf))
val masterendpoints = driverargs.masters.map(rpcaddress.fromsparkurl).
map(rpcenv.setupendpointref(_, master.endpoint_name))
rpcenv.setupendpoint("client", new clientendpoint(rpcenv, driverargs, masterendpoints, conf))
rpcenv.awaittermination()
}}

6. 之後就是driver 啟動，sparkcontext初始化的過程了

2.worker 在啟動executor的時候，先new executorrunner，runner不是程序也不是執行緒，只是乙個物件，在runner.start()中，使用執行緒非同步啟動了乙個執行緒，該執行緒用於啟動executorbackend.

3.executor執行結束之後，使用backend.updatestatus() 向schedulerbackend 傳送訊息，schedulerbackend 的receive中，會把結果交給taskschedular進行處理，然後按照處理的結果在進行相關操作，比如，如果執行成功不需要重試，那麼schedulerbackend，就會把cores加到freecores中，然後呼叫makeoffers() 重新進行task的資源分配，看有沒有滿足資源條件的task可以執行。

job提交之後，呼叫runjob,到最終task被分配到executor之前所涉及到的排程相關

1.首先涉及到的排程是job stage 劃分和提交過程，也就是submitstage方法，所有又依賴的satge,也就是說有父satge的子stage,子stage呼叫submitsatge的時候，會將子satge新增到watingsatge佇列中，換句話說，如果乙個stage有父依賴，那麼他就不能被subnitmissingsatge submit,會被加入到watingsatge，只有沒有依賴的satge才會被提交。

沒有依賴的stage提交，會將satge轉換成tasksetmanager，提交給taskscheduar

2.taskschedular在初始化的時候，方法位於sparkcontext中，初始化的時候初始化了乙個佇列，這個佇列有兩個選擇：fifo/fair,

tasksetmanager提交給taskschedular的時候就會加入到該佇列中，比如fifo佇列，有兩層排序，一層是根據jobid，jobid越小的優先順序越高，同一job內部，存在第二層排序，stageid，stageid越小的優先順序越高

值得足以的一點就是：stage提交的時候，有依賴，就不會新增到佇列中，會加入到watingsatge中，等待某乙個stage完成之後，會檢查watingsatge提交已經沒有依賴的stage

Spark （原始碼）總結雜

Spark原始碼分析 Spark整體架構

spark原始碼之TaskScheduler解讀

spark原始碼剖析 RDD相關原始碼閱讀筆記

Spark （原始碼） 總結 雜

Spark原始碼分析 Spark整體架構

spark原始碼之TaskScheduler解讀

spark原始碼剖析 RDD相關原始碼閱讀筆記

相關推薦

Spark （原始碼）總結雜