sparksql電商專案調優

2021-10-03 15:07:28 字數 363 閱讀 1487

1、效能調有、壓縮格式的選擇

壓縮方式考慮兩個方面:壓縮速度、壓縮檔案的可分割性。

bzip2壓縮效果是最好的,但是bzip2壓縮速度慢,可分割;

gzip壓縮效果不如bzip2,但是壓縮解壓速度快,不支援分割;

lzo壓縮效果不如bzip2和gzip,但是壓縮解壓速度快,並且支援分割;

2、引數優化

調整並行度:

spark.sql.shuffle.partitions :預設200

分割槽字段型別推測:

spark.sql.sources.partitioncolumntypeinference.enabled

談一談spark SQL的調優經驗

sql是一種結構化的資料庫查詢語言。而spark sql是spark套件中的乙個元件,它將資料的計算任務通過sql的形式轉換成了rdd的計算,類似於hive通過sql的形式將資料的計算任務轉換成了mapreduce。通常來說hadoop是一整套大資料解決方案,包括了儲存 hdfs 計算 mapred...

電商專案專題 一 電商入門

學習電商專案,自然要先了解這個行業,所以我們首先來聊聊電商行業 主要從需求方 盈利模式 技術側重點這三個方面來看它們的不同 各種企業裡面用的管理系統 erp hr oa crm 物流管理系統。而我們今天要聊的就是網際網路專案中的重要角色 電商 近年來,中國的電子商務快速發展,交易額連創新高,電子商務...

一些常用的Spark SQL調優技巧

一些常用的spark sql調優技巧 使用快取表 在sparksql中,當我們建立表時,我們可以通過呼叫spark.catalog.cachetable tablename 或者dataframe.cache 的方式將表快取起來。這樣spark sql將僅掃瞄所需的列,並自動調整壓縮以最小化記憶體使...