Spark原始碼編譯支援Parquet儲存格式

2021-09-12 00:17:09 字數 1285 閱讀 2724

spark配置

spark原始碼編譯方式部署spark時,為了支援parquet功能,需要在原始碼編譯時指定支援parquet功能(即在編譯命令中帶上」parquet-provided「引數),具體的編譯命令如下:

./dev/make-distribution.sh --name "hadoop310-without-hive" --tgz "-pyarn,-phadoop-3.1,-dhadoop.version=3.1.0,parquet-provided,orc-provided"
具體spark的部署可以參考:

環境資訊:

hadoop版本:3.1.0

spark版本:2.3.3

hive版本:3.1.1

為了保證parquet的jar包與版本的相容性,可以在hive原始碼根目錄下的pom.xml檔案中檢視與hive相相容的parquet版本號,查詢parquet.version,以hive-3.1.1為例,查詢的結果如下:

1.10.0

0.16.0

1.5.6

2.5.0

1.0.1

1.7.10

4.0.4

2.7.0

0.9.1

2.2.0

2.3.0

2.11

2.11.8

查詢到的parquet版本為1.10.0版本

commons-codec-1.10.jar       

parquet-encoding-1.10.0.jar

parquet-jackson-1.10.0.jar

commons-pool-1.6.jar

parquet-column-1.10.0.jar

parquet-format-2.4.0.jar

slf4j-api-1.7.2.jar

jackson-core-asl-1.9.13.jar

parquet-common-1.10.0.jar

parquet-hadoop-1.10.0.jar

spark.driver.extraclasspath	/usr/local/parquet-hadoop-jars/*

spark.executor.extraclasspath /usr/local/parquet-hadoop-jars/*

spark集群所有節點都做同樣的配置,最後重啟spark集群即可。

spark1 2原始碼編譯

為什麼要編譯原始碼呢?要搞hive on spark。1.chd不好用,缺jar包啊 2.hive1.1的 pom檔案寫了只支援spark1.2 3.apache版本的部署包有 phive編譯,不能用 簡單粗暴的說 1.使用這個命令 mvn pyarn phadoop 2.6 dscala 2.11...

spark2 2 0 原始碼編譯安裝

1.spark概述 spark 是乙個用來實現快速而通用的集群計算的平台。在速度方面,spark 擴充套件了廣泛使用的 mapreduce 計算模型,而且高效地支援更多計算模式,包括互動式查詢和流處理。在處理大規模資料集時,速度是非常重要的。速度快就意味著我們可以進行互動式的資料操作,否則我們每次操...

Spark原始碼分析 Spark整體架構

術語 描述使用者編寫的程式。driver端的sparkcontext sparkconf和執行在executors上使用者編寫的業務邏輯 即map reduce reducebykey等 driver 執行使用者編寫應用程式的main 方法並建立sparkcontext worker 具體執行應用程...