Spark原始碼編譯支援Parquet儲存格式

spark配置

spark原始碼編譯方式部署spark時，為了支援parquet功能，需要在原始碼編譯時指定支援parquet功能（即在編譯命令中帶上」parquet-provided「引數），具體的編譯命令如下：

./dev/make-distribution.sh --name "hadoop310-without-hive" --tgz "-pyarn,-phadoop-3.1,-dhadoop.version=3.1.0,parquet-provided,orc-provided"

具體spark的部署可以參考：

環境資訊：

hadoop版本：3.1.0

spark版本：2.3.3

hive版本：3.1.1

為了保證parquet的jar包與版本的相容性，可以在hive原始碼根目錄下的pom.xml檔案中檢視與hive相相容的parquet版本號，查詢parquet.version，以hive-3.1.1為例，查詢的結果如下：

1.10.0 0.16.0 1.5.6 2.5.0 1.0.1 1.7.10 4.0.4 2.7.0 0.9.1 2.2.0 2.3.0 2.11

2.11.8

查詢到的parquet版本為1.10.0版本

commons-codec-1.10.jar parquet-encoding-1.10.0.jar parquet-jackson-1.10.0.jar commons-pool-1.6.jar parquet-column-1.10.0.jar parquet-format-2.4.0.jar slf4j-api-1.7.2.jar jackson-core-asl-1.9.13.jar parquet-common-1.10.0.jar

parquet-hadoop-1.10.0.jar

spark.driver.extraclasspath /usr/local/parquet-hadoop-jars/*

spark.executor.extraclasspath /usr/local/parquet-hadoop-jars/*

spark集群所有節點都做同樣的配置，最後重啟spark集群即可。

spark1 2原始碼編譯

為什麼要編譯原始碼呢？要搞hive on spark。1.chd不好用，缺jar包啊 2.hive1.1的 pom檔案寫了只支援spark1.2 3.apache版本的部署包有 phive編譯，不能用簡單粗暴的說 1.使用這個命令 mvn pyarn phadoop 2.6 dscala 2.11...

spark2 2 0 原始碼編譯安裝

1.spark概述 spark 是乙個用來實現快速而通用的集群計算的平台。在速度方面，spark 擴充套件了廣泛使用的 mapreduce 計算模型，而且高效地支援更多計算模式，包括互動式查詢和流處理。在處理大規模資料集時，速度是非常重要的。速度快就意味著我們可以進行互動式的資料操作，否則我們每次操...

Spark原始碼分析 Spark整體架構

術語描述使用者編寫的程式。driver端的sparkcontext sparkconf和執行在executors上使用者編寫的業務邏輯即map reduce reducebykey等 driver 執行使用者編寫應用程式的main 方法並建立sparkcontext worker 具體執行應用程...

Spark原始碼編譯支援Parquet儲存格式

spark1 2原始碼編譯

spark2 2 0 原始碼編譯安裝

Spark原始碼分析 Spark整體架構

相關推薦