Spark指令碼提交 執行 部署

2021-07-03 19:19:36 字數 941 閱讀 6030

尊重版權,謝謝分享

執行spark-shell需要指向申請資源的standalone spark集群資訊,其引數為master,還可以指定executor及driver的記憶體大小。

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark:

spark-shell啟動完後,可以在互動視窗中輸入scala命令,進行操作,其中spark-shell已經預設生成sc物件,可以用:

val user_rdd1 = sc.textfile(inputpath, 10)

讀取資料資源等。

上面方法需要在互動視窗中一條一條的輸入scala程式;將scala程式儲存在test.scala檔案中,可以通過以下命令一次執行該檔案中的程式**:

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark: < test.scala

執行後會自動進入spark-shell互動視窗並且執行test.scala中的程式,執行完成後,會自動退出spark-shell。

如果程式退出終端後,linux終端失效,可以試試:stty echo 命令

spark提供了乙個容易上手的應用程式部署工具bin/spark-submit,可以完成spark應用程式在local、standalone、yarn、mesos上的快捷部署。可以指定集群資源master,executor/ driver的記憶體資源等。

sudo spark-submit --masterspark: --executor-memory 5g --class mypackage.test  workcount.jar  hdfs:

workcount .scala **打包workcount.jar,並將檔案需要上傳到spark的安裝目錄下面;

hdfs:為輸入引數; 

Spark指令碼提交 執行 部署

執行spark shell需要指向申請資源的standalone spark集群資訊,其引數為master,還可以指定executor及driver的記憶體大小。sudo spark shell executor memory 5g driver memory1g master spark spar...

ubuntu python指令碼後台執行 部署

在伺服器執行python指令碼,如果你按了ctrl c或者關閉了這個ssh終端 你的這個指令碼就會停止!所以你需要以後台程式的方式執行 你的這個python指令碼,可以使用nobup命令。鍵入這樣的命令 nohup python3 u py out 2 1 解釋下 nohup 和 最後的 包著的就是...

Spark任務提交執行全流程詳解

spark任務的本質是對我們編寫的rdd的依賴關係切分成乙個個stage,將stage按照分區分批次的生成taskset傳送到executor進行任務的執行 spark任務分兩種 1 shufflemaptask shuffle之後的task 2 resulttask shuffle之前的task ...