Spark中幾個重要名詞

2021-09-02 18:23:53 字數 879 閱讀 8386

spark幾個名詞

1 job,乙個action操作觸發乙個job 

action的一些操作 

2 stage劃分

1)有shuffle操作,則shuffle之前為乙個 stage

2)資料落地輸出則為乙個 stage

3 task為具體的任務執行單位,個人理解為乙個執行緒,task的劃分取決於幾個方面

1) 分配的cpu數目和cpu的核數,cpu數目*cpu的核數則為總得任務數量。

2)總分區數量partition 

如果1中的數量小於2中的數量則為1的任務數,否則為2中的分割槽數量,即partition數量決定執行的併發數。

如果元資料分割槽太少,可以重新分割槽,否則不會有併發。

4 worker個人理解為工作的機器數量,worker node就是物理節點。

5 executor,為worker機器上cpu的數量,如果設定num-executors=5,則分配給這個任務5個cpu去執行task,

如果executor-cores=10,則每個cpu分配的核數為10,即每個executor上啟動10個執行緒執行任務,總得分配的task為5*10。

executor-memory=2g為每個task分配的記憶體為2g,這個值過大,則會影響啟動的executor的數量。

spark-submit --master  yarn-cluster  --name importdtaweather3  --num-executors 10  --executor-cores 12  --executor-memory 3g --queue  def0  --class  com.jusn.spark.test.dftestrowkeyself  weatherimport-1.0-jar-with-dependencies.jar

Spark幾個重要的埠彙總

50070 hdfswebui的埠號 8485 journalnode預設的埠號 9000 非高可用訪問數rpc埠 8020 高可用訪問資料rpc 8088 yarn的webui的埠號 8080 master的webui,tomcat的埠號 7077 spark基於standalone的提交任務的埠...

Spark部分 幾個重要的埠彙總

50070 hdfswebui的埠號 8485 journalnode預設的埠號 9000 非高可用訪問數rpc埠 8020 高可用訪問資料rpc 8088 yarn的webui的埠號 8080 master的webui,tomcat的埠號 7077 spark基於standalone的提交任務的埠...

Spark部分 幾個重要的埠彙總

50070 hdfswebui的埠號 8485 journalnode預設的埠號 9000 非高可用訪問數rpc埠 8020 高可用訪問資料rpc 8088 yarn的webui的埠號 8080 master的webui,tomcat的埠號 7077 spark基於standalone的提交任務的埠...