部署安裝 Spark

2021-10-01 05:41:23 字數 1452 閱讀 9304

前言

spark簡介

spark是整個bdas的核心元件,是乙個大資料分布式程式設計框架,不僅實現了mapreduce的運算元map 函式和reduce函式及計算模型,還提供更為豐富的運算元,如filter、join、groupbykey等。是乙個用來實現快速而同用的集群計算的平台。

spark將分布式資料抽象為彈性分布式資料集(rdd),實現了應用任務排程、rpc、序列化和壓縮,並為執行在其上的上層元件提供api。其底層採用scala這種函式式語言書寫而成,並且所提供的api深度借鑑scala函式式的程式設計思想,提供與scala類似的程式設計介面

1.準備工作

如圖所示:

2、安裝scala-2.9.3

3、安裝spark-1.4.0

4、修改spark配置檔案

在spark-env.sh末端新增如下幾行:

spark-defaults.conf中還有如下配置引數:

6、使用wordcount例子測試,啟動spark-shell之前先上傳乙份檔案到hdfs

7、**:

val file = sc.textfile("hdfs:")

val count = file.flatmap(line=>(line.split(" "))).map(word=>(word,1)).reducebykey(_+_)

count.collect()

count.textasfile("hdfs:")

理解上面的**你需要學習scala語言。

總結:山不厭高,海不厭深。

Spark單機部署

spark版本選型 spark解壓安裝 上傳spark安裝包 cd home spark soft spark安裝包存在路徑 tar zxvf spark 2.1.2 bin hadoop2.7.tgz 解壓 ln s spark 2.1.2 bin hadoop2.7 spark 方便起見可以建立...

spark部署,環境搭建

spark 部署,環境搭建 部署spark 一 安裝 hadoop 1.改名 33 master 32 node1 34 node2 2.配置三者互相 ssh無密碼登陸 3.設定環境變數。配置配置檔案 logstash與kafka pgsql安裝 安裝psycopg wget tarxfpsycop...

Xshell部署spark步驟

執行spark 命令 1.ssh 主機id 鏈結測試環境ip 2.輸入使用者名稱和密碼 3.輸入 cd 到根目錄 返回cd 到上級目錄 4.輸入 pwd到根目錄 5.輸入 ls檢視根目錄下的資料夾 6.輸入 cd project 進入所在資料夾 直接進入某個目錄 cd project project...