spark 的相關配置

export hadoop_home= /home/hadoop/hadoop-2.0.0-cdh4.5.0

export hadoop_conf_dir= $hadoop_home/etc/hadoop

spark_executor_instances=2

spark_executor_cores=1

spark_executor_memory=400m

spark_driver_memory=400m

其中：(1) hadoop_home:當前節點中hdfs的部署路徑，因為spark需要和hdfs中的節點在一起；

(2) hadoop_conf_dir:hdfs節點中的conf配置檔案路徑，正常情況下此目錄為$hadoop_home/etc/hadoop；

(3) spark_executor_instances:在yarn集群中啟動的worker的數目，預設為2個；

(4) spark_executor_cores:每個worker所占用的cpu核的數目；

(5) spark_executor_memory:每個worker所占用的記憶體大小；

配置完成後，將spark部署檔案放置到yarn的節點中即可。這裡，將spark-1.0.0整個目錄放到yarn集群的乙個節點192.168.1.112的/home/hadoop(設為spark的安裝路徑的父目錄)路徑下。

至於spark-env.sh檔案，可以配置如下屬性：

(1) spark_master_port:master服務埠，預設為7077；

(2) spark_worker_cores:每個worker程序所需要的cpu核的數目；

(3) spark_worker_memory:每個worker程序所需要的記憶體大小；

(4) spark_worker_instances：每個worker節點上執行worker程序的數目；

(5) spark_master_webui_port：master節點對應web服務的埠；

Spark 效能相關引數配置詳解 Storage篇

隨著spark的逐漸成熟完善,越來越多的可配置引數被新增到spark中來,本文試圖通過闡述這其中部分引數的工作原理和配置思路,和大家一起一下如何根據實際場合對spark進行配置優化。由於篇幅較長，所以在這裡分篇組織，如果要看最新完整的網頁版內容，可以戳這裡主要是便於更新內容 storage相關配...

Spark的日誌配置

在測試spark計算時，將作業提交到yarn 模式 master yarn cluster 上，想檢視print到控制台這是imposible的，因為作業是提交到yarn的集群上，so 去yarn集群上看日誌是很麻煩的，但有特別想看下print的資訊，方便除錯或者別的目的在spark的conf目錄...

spark相關知識雜記

工作中經常用到hadoop和spark的相關操作，大資料的知識點很多，想要全部掌握爛熟於心很困難，將一些比較重要或經常忘記的點記錄一下 1.saprk與hadoop的關係 hadoop是乙個完善的大資料生態系統，包含了底層的檔案系統hdfs，計算引擎mapreduce，大資料查詢引擎hive，實時流...

spark 的相關配置

Spark 效能相關引數配置詳解 Storage篇

Spark的日誌配置

spark相關知識雜記

相關推薦