執行第乙個spark程式

2021-06-28 07:23:11 字數 2049 閱讀 9358

執行第乙個spark程式---wordcount

首先在ide中建立工程

**如下:

將上述工程打包,上傳到集群:

使用

spark-submit

執行:

spark-submit \

--name wordcount \

--class cn.sjzc.wordcount \

--master spark://hadoop1:7077 \

--executor-memory 512m \

--total-executor-cores 1 \

/opt/spark/spark/scalademo.jar \

/opt/spark/testdata/wordcount.txt

當使用hdfs作為輸入目錄時候,可以這樣寫:
spark-submit \

--name wordcount \

--class cn.sjzc.wordcount \

--master spark://hadoop1:7077 \

--executor-memory 512m \

--total-executor-cores 1 \

/opt/spark/spark/scalademo.jar \

hdfs://hadoop2:4001/t

注意 :相應主機的namenode要處於active狀態;後面的埠是根據hdfs-site.xml配置來決定的:
dfs.namenode.rpc-address.mycluster.ns1

hadoop1:4001

dfs.namenode.rpc-address.mycluster.ns2

hadoop2:4001

執行結果:

注意:
--executor-memory 512m \

這裡是指定

executor的記憶體大小,要根據自己集群的情況來指定,如果設定過大就會出以下錯:

Spark第乙個程式

linux環境 使用 jupyter notebook作為互動工具,可以用python,scala語言編寫。具體看 spark 初入門中啟動spark的四種方式.python語言 在jupyter notebook新建python的notebook。計算圓周率 import random num s...

pycharm執行第乙個django程式

使用ide自動生成乙個程式,然後修改views 要讓這段 顯示出來需要配置urls from django.contrib import admin from django.urls import path from web import views from django.conf.urls im...

第乙個vue執行

1,我剛入手,所以直接在網上d的模板,用的element,倉庫 2,vue搭建環境 vue需要nodejs支援,需要用到npm npm的作用就是對node.js依賴的包進行管理 新版本安裝的時候,nodejs會將其一起安裝上。一般用lts,穩定版本 2 安裝完以後可以嘗試用命令裝x一下。測試下版本 ...