部署安裝 Spark

前言

spark簡介

spark是整個bdas的核心元件，是乙個大資料分布式程式設計框架，不僅實現了mapreduce的運算元map 函式和reduce函式及計算模型，還提供更為豐富的運算元，如filter、join、groupbykey等。是乙個用來實現快速而同用的集群計算的平台。

spark將分布式資料抽象為彈性分布式資料集（rdd），實現了應用任務排程、rpc、序列化和壓縮，並為執行在其上的上層元件提供api。其底層採用scala這種函式式語言書寫而成，並且所提供的api深度借鑑scala函式式的程式設計思想，提供與scala類似的程式設計介面

1.準備工作

如圖所示：

2、安裝scala-2.9.3

3、安裝spark-1.4.0

4、修改spark配置檔案

在spark-env.sh末端新增如下幾行：

spark-defaults.conf中還有如下配置引數：

6、使用wordcount例子測試，啟動spark-shell之前先上傳乙份檔案到hdfs

7、**：

val file = sc.textfile("hdfs:")

val count = file.flatmap(line=>(line.split(" "))).map(word=>(word,1)).reducebykey(_+_)

count.collect()

count.textasfile("hdfs:")

理解上面的**你需要學習scala語言。

總結：山不厭高，海不厭深。