記錄線上presto集群崩潰

公司線上presto集群在週末有大量的任務失敗，檢視了下機群的負載，除了coordinator，所有worker的cpu和記憶體基本上都耗盡了，檢視日誌，出現了很多worker節點被下線的情況，檢視jvn程序，出現了很多次full gc，而且時間非常長

首先我們判斷是不是網路問題，因為我們這邊的資料主要是hdfs和mysql，在和網路同時溝通測試後，確定presto集群訪問hdfs和mysql這兩條資料鏈路都沒有網路異常情況，並且hdfs和mysql也沒有做任何配置上的修改

之後我們懷疑是否有增量的大資料查詢任務（之前我們把所有的查詢都存到資料庫中），查詢資料庫，並沒有增量任務，並且也沒有異常查詢

在確定非外界因素之後，那只有硬著頭皮去調參，首先我們著手怎樣減少full gc，無奈各種調參，效果都不是很明顯，再一次說明，如果你不是巨牛，jvm調參這種方案，一定要放在最後

之後我們，我們換了一種思路，減少每個例項heap記憶體，部署多個例項，之前每個例項heap記憶體都配置了55g，我們降到了40g，之前乙個機器上部署了2個例項，現在變成了3個；換了部署方案後，full gc確實少一點，但是集群還是會出現崩潰的問題

想到集群負載高，我們試著著手去限制每個使用者佇列同時執行任務數，於是我們把之前每個使用者最多執行任務數從10個降到3(這個是一步一步調下來的結果，起初嘗試了8，5)，果然集群基本上沒有了full gc，雖然查詢時間會長一點，但總算抗住了計算峰值（有錢的話就直接加機器吧）

貼個資源配置檔案，大家參考下resource.json

",
"softmemorylimit": "30%",
"maxrunning": 3,
"maxqueued": 20
},",
"softmemorylimit": "10%",
"maxrunning": 3,
"maxqueued": 100}]
}]
},],
"selectors": [,"
},"}],
"cpuquotaperiod": "10h"
}

記錄線上presto集群崩潰

填坑！線上Presto查詢Hudi表異常排查

記錄在docker中部署pure ftp

QT學習記錄在表盤中畫線

記錄線上presto集群崩潰

填坑！線上Presto查詢Hudi表異常排查

記錄在docker中部署pure ftp

QT學習記錄 在表盤中畫線

相關推薦

QT學習記錄在表盤中畫線