spark集群中執行SparkPi的示例

2021-09-02 09:19:17 字數 968 閱讀 1703

1、sparkpi.scala原始碼(官網例子)

import scala.math.random

import org.apache.spark._

object sparkpi .reduce(_ + _)

println("pi is roughly " + 4.0 * count / n)

spark.stop()

}}

2、在intellij ide整合開發環境中執行,會出錯,需要修改**,增加

3、利用ide環境,把**打成jar,只需要原始碼程式即可(其它的引用包去掉)

4、然後在ide的**中增加

spark.addjar("/home/cec/spark-1.2.0-bin-hadoop2.4/helloworld.jar")

把helloworld.jar分發到各個worker中

5、執行即可

14/12/31 15:28:57 info dagscheduler: stage 0 (reduce at sparkpi.scala:21) finished in 4.500 s

14/12/31 15:28:58 info dagscheduler: job 0 finished: reduce at sparkpi.scala:21, took 8.608873 s

pi is roughly 3.14468

修改後的執行**如下:

import scala.math.random

import org.apache.spark.

/** * created by cec on 12/31/14.

*/object sparkpi .reduce(_ + _)

println("pi is roughly " + 4.0 * count / n)

spark.stop()

}}

Spark集群執行與優化

spark集群上的執行 spark集群採用的是主 從結構,主是驅動器節點driver,其他是工作節點executor,之間通過集群管理器來連線。驅動器在spark應用有兩個職責 執行器程序兩大作用 負責執行組成spark應用的任務,並把結果返還驅動器程序 通過自身的塊管理器 block manage...

spark集群模式

第一種 val conf sparkconf new sparkconf conf.setmaster spark spark1 7077 如果這樣寫的話 直接就在集群上面執行了 idea種 使用spark submit不用指定 master了就 spark submit class day06.s...

Spark基礎(三)Spark中的任務執行

容錯機制 spark的架構特點 根據客戶端提交的jar包劃分出來乙個個的rdd,根據rdd之間的lineage關係劃分dag。劃分dag的目的是為了劃分stage。2 dag通過dagscheller劃分為stage 再劃分為taskset 根據劃分出來的dag,將dag送個dagscheduler...