Spark 偽分布式安裝教程

2021-07-11 04:11:43 字數 1501 閱讀 9401

mr跑迭代演算法的侷限性太大,後續想將一部分任務轉移到spark上。公司其他組每天有提交spark任務在yarn上執行。但是他們的客戶機,我們組沒有許可權登入,而且他們也沒有相應的測試機器。於是一咬牙,一跺腳,算了,自己搭環境吧。找了臺我們自己的測試機開幹。

給大家上個spark版本資訊的圖

基本每隔一兩個月就有新的release版本。由此可見現在身為apache頂級專案的spark,到底有多火。。。同志們,你們再不看spark,你們就out啦。。

4.先看一把裡頭都有些啥東東(因為檔案太多,只顯示一層)

[lei.wang@datanodetest03 soft]$ tree -l 1 spark-1.6.0-bin-hadoop2.4

spark-1.6.0-bin-hadoop2.4

├── bin

├── changes.txt

├── conf

├── data

├── ec2

├── examples

├── lib

├── license

├── licenses

├── notice

├── python

├── r

├── readme.md

├── release

└── sbin

10 directories, 5 files

5.cd 到bin目錄中,執行spark-shell, ./spark-shell,然後出現以下介面:

如果出現了下面的scala命令列形式,恭喜你,安裝成功!

1.scala shell命令列簡單測試

scala> val a = sc.parallelize(1 to 9,3)

a: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[0] at parallelize at console:27

scala> a.collect

res0: array[int] = array(1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> b.collect

res1: array[int] = array(2, 4, 6, 8, 10, 12, 14, 16, 18)

2.執行自帶的example

由此可見這個例子是計算pi值的。

注意:1.執行命令中的2表示起兩個執行緒跑,如果不指定這個數值,**跑不起來,會報錯。

2.如果將命名換成./run-example org.apache.spark.examples.sparkpi spark://localhost:7077,就是將本地位址換成localhost,**也跑不起來,也會報錯,具體原因暫時未知。應該是跟各種配置項有關

安裝hadoop hbase偽分布式

我在將hbase安裝到hadoop過程中試了好多個配置,最終這個hbase的配置,可以正常啟動。1.安裝hadoop偽分布式 hdfs localhost 9000 conf hdfs site.xml dfs.replication 1conf mapred site.xml mapred.job...

Hadoop偽分布式安裝

帶尺寸的 當然,我們為了讓使用者更加便捷,我們增加了拖拽功能。去部落格設定頁面,選擇一款你喜歡的 片高亮樣式,下面展示同樣高亮的 片.an highlighted block var foo bar 專案1專案2 專案3乙個簡單的 是這麼建立的 專案value 電腦 1600 手機 12 導管 1 ...

zookeeper 偽分布式安裝

2 解壓縮 將zookeeper 3.4.6.tar.gz複製到 usr local資料夾下 執行命令 tar zxvf zookeeper 3.4.6.tar.gz 解壓後的資料夾為 zookeeper 3.4.6 為了方便,將資料夾改為zookeeper。mv zookeeper 3.4.6 z...