spark優化引數調整思路

2021-07-28 07:27:07 字數 562 閱讀 2457

spark引數調整

1. 減少num-executors,調大executor-memory,這樣的目的是希望executor有足夠的記憶體可以使用

2. cache的級別適當調成memory_only_ser和disk_only

3. 修改邏輯,避免shuffle;shuffle是stage的區分標準

4. 引數設定

spark.sql

.shuffle

.partitions

spark.serializer

5.設定廣播變數

2. spark 提高並行度

實現簡單,可在需要shuffle的操作運算元上直接設定並行度或者使用spark.default.parallelism設定。如果是spark sql,還可通過set spark.sql.shuffle.partitions=[num_tasks]設定並行度。可用最小的代價解決問題。一般如果出現資料傾斜,都可以通過這種方法先試驗幾次,如果問題未解決,再嘗試其它方法。

spark之shuffle引數優化

spark.shuffle.file.buffer預設32k shuffle write task端的緩衝區,到達閾值後,溢寫到磁碟。將數值調大,減少io操作,提公升整體效能 具體數值根據實際情況設定 spark.reducer.maxsizeinflight預設48m reduce shuffle...

linux 核心引數調整優化網路

linux系統核心設定優化tcp網路,vi etc sysctl.conf,新增以下內容 net.ipv4.tcp syncookies 1 表示開啟syn cookies。當出現syn等待佇列溢位時,啟用cookies來處理,可防範少量syn攻擊,預設為0,表示關閉 net.ipv4.tcp tw...

mysql 優化 調整mysql 併發相關引數

引數控制允許連線到mysql 資料庫的最大數量.預設值151.如果狀態變數connection errors max connections 不為零,並且一直在增長,說明不斷有連線請求因資料庫已達到最大允許的值而失敗.應考慮增大max connections 值.在增大max connections...