spark 案例集群測試整理

2021-07-02 18:45:47 字數 1211 閱讀 9202

工作過程:今天打算使用spark 自帶的案例sparkpi 對集群進行測試,主要向了解集群啟動過程及機器的負載情況。沒想到問題還還真不少,感謝群友,特別是hali 支援。

主要的問題有3個:

1.測試spark 集群與local 執行方式使用的差別及集群測試時ip 與機器訪問的處理

2.spark  集群不能重啟問題的處理

1。.測試spark 集群與local 執行方式使用的差別

1.1 本地啟動

./run-example org.apache.spark.examples.sparkpi 2 spark: 這樣啟動,啟動方式其實是local模式。可以通過檢視run-example指令碼看出,並且./run-example org.apache.spark.examples.sparkpi 2 local 這樣不行。注意本地啟動,在 下看不到job 情況 ,

1.2 集群啟動

./bin/spark-submit --master spark://jt-host-kvm-17:7077 --class org.apache.spark.examples.sparkpi --executor-memory 300m  ./lib/spark-examples-1.1.0-hadoop2.4.0.jar 1

這裡用ip有問題,錯誤如下

其他群友支援的資料

2.spark  集群不能重啟問題的處理:

執行stop-all.sh  停止spark 集群命令後提示,如下

初步分析是worker.pid或者master.pid預設位置 在/tmp 資料夾下,可能被刪除了 因為在rhel6中,系統自動清理/tmp資料夾的預設時限是30天

配置環境變數 spark_pid_dir

spark集群模式

第一種 val conf sparkconf new sparkconf conf.setmaster spark spark1 7077 如果這樣寫的話 直接就在集群上面執行了 idea種 使用spark submit不用指定 master了就 spark submit class day06.s...

spark題目整理

1 乙個spark作業執行時包括乙個driver程序,也是作業的主程序,具有main函式和sparkcontext的例項,是程式的人口點 2 功能 負責向集群申請資源,向master註冊資訊,負責了作業的排程,負責作業的解析 生成stage並排程task到executor上。包括dagschedul...

spark運算元整理

相當於mapreduce自定義combine,可以提高任務的執行效率,畢竟在map端已經聚合過了 def combinebykeywithclasstag c createcombiner v c,map端,改變 v 的返回值型別 mergevalue c,v c,map端,預聚合 mergecom...