spark 案例集群測試整理

工作過程：今天打算使用spark 自帶的案例sparkpi 對集群進行測試，主要向了解集群啟動過程及機器的負載情況。沒想到問題還還真不少，感謝群友，特別是hali 支援。

主要的問題有3個：

1.測試spark 集群與local 執行方式使用的差別及集群測試時ip 與機器訪問的處理

2.spark 集群不能重啟問題的處理

1。.測試spark 集群與local 執行方式使用的差別

1.1 本地啟動

./run-example org.apache.spark.examples.sparkpi 2 spark: 這樣啟動，啟動方式其實是local模式。可以通過檢視run-example指令碼看出，並且./run-example org.apache.spark.examples.sparkpi 2 local 這樣不行。注意本地啟動，在下看不到job 情況，

1.2 集群啟動

./bin/spark-submit --master spark://jt-host-kvm-17:7077 --class org.apache.spark.examples.sparkpi --executor-memory 300m ./lib/spark-examples-1.1.0-hadoop2.4.0.jar 1

這裡用ip有問題，錯誤如下

其他群友支援的資料

2.spark 集群不能重啟問題的處理：

執行stop-all.sh 停止spark 集群命令後提示，如下

初步分析是worker.pid或者master.pid預設位置在/tmp 資料夾下，可能被刪除了因為在rhel6中，系統自動清理/tmp資料夾的預設時限是30天

配置環境變數 spark_pid_dir

spark集群模式

第一種 val conf sparkconf new sparkconf conf.setmaster spark spark1 7077 如果這樣寫的話直接就在集群上面執行了 idea種使用spark submit不用指定 master了就 spark submit class day06.s...

spark題目整理

1 乙個spark作業執行時包括乙個driver程序，也是作業的主程序，具有main函式和sparkcontext的例項，是程式的人口點 2 功能負責向集群申請資源，向master註冊資訊，負責了作業的排程，負責作業的解析生成stage並排程task到executor上。包括dagschedul...

spark運算元整理

相當於mapreduce自定義combine，可以提高任務的執行效率，畢竟在map端已經聚合過了 def combinebykeywithclasstag c createcombiner v c,map端，改變 v 的返回值型別 mergevalue c,v c,map端，預聚合 mergecom...

spark 案例集群測試整理

spark集群模式

spark題目整理

spark運算元整理

相關推薦