Spark指令碼提交執行部署

執行spark-shell需要指向申請資源的standalone spark集群資訊，其引數為master，還可以指定executor及driver的記憶體大小。

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark:

spark-shell啟動完後，可以在互動視窗中輸入scala命令，進行操作，其中spark-shell已經預設生成sc物件，可以用：

val user_rdd1 = sc.textfile(inputpath, 10)

讀取資料資源等。

上面方法需要在互動視窗中一條一條的輸入scala程式；將scala程式儲存在test.scala檔案中，可以通過以下命令一次執行該檔案中的程式**：

sudo spark-shell --executor-memory 5g --driver-memory1g --master spark: < test.scala

執行後會自動進入spark-shell互動視窗並且執行test.scala中的程式，執行完成後，會自動退出spark-shell。

如果程式退出終端後，linux終端失效，可以試試：stty echo 命令

spark提供了乙個容易上手的應用程式部署工具bin/spark-submit，可以完成spark應用程式在local、standalone、yarn、mesos上的快捷部署。可以指定集群資源master，executor/ driver的記憶體資源等。

sudo spark-submit --masterspark: --executor-memory 5g --class mypackage.test workcount.jar hdfs:

workcount .scala **打包workcount.jar，並將檔案需要上傳到spark的安裝目錄下面；

hdfs:為輸入引數；

Spark指令碼提交執行部署

尊重版權，謝謝分享執行spark shell需要指向申請資源的standalone spark集群資訊，其引數為master，還可以指定executor及driver的記憶體大小。sudo spark shell executor memory 5g driver memory1g master ...

ubuntu python指令碼後台執行部署

在伺服器執行python指令碼，如果你按了ctrl c或者關閉了這個ssh終端你的這個指令碼就會停止！所以你需要以後台程式的方式執行你的這個python指令碼，可以使用nobup命令。鍵入這樣的命令 nohup python3 u py out 2 1 解釋下 nohup 和最後的包著的就是...

Spark任務提交執行全流程詳解

spark任務的本質是對我們編寫的rdd的依賴關係切分成乙個個stage，將stage按照分區分批次的生成taskset傳送到executor進行任務的執行 spark任務分兩種 1 shufflemaptask shuffle之後的task 2 resulttask shuffle之前的task ...

Spark指令碼提交 執行 部署

Spark指令碼提交 執行 部署

ubuntu python指令碼後台執行 部署

Spark任務提交執行全流程詳解

相關推薦

Spark指令碼提交執行部署

Spark指令碼提交執行部署

ubuntu python指令碼後台執行部署