Impala效能優化

2021-09-08 04:31:34 字數 831 閱讀 6597

不多說,直接上乾貨!

• 執行計畫

– 查詢sql執行之前,先對該sql做乙個分析,列出需要完成這一項查詢的詳細方案

– 命令:explain sql、profile

要點:

• 1、sql優化,使用之前呼叫執行計畫

• 2、選擇合適的檔案格式進行儲存

• 3、避免產生很多小檔案(如果有其他程式產生的小檔案,可以使用中間表)

• 4、使用合適的分割槽技術,根據分割槽粒度測算

• 5、使用compute stats進行表資訊蒐集

• 6、網路io的優化:

– a.避免把整個資料傳送到客戶端

– b.盡可能的做條件過濾

– c.使用limit字句

– d.輸出檔案時,避免使用美化輸出

• 7、使用profile輸出底層資訊計畫,在做相應環境優化

• 8、如果是重新整理表的新增元資料要使用refresh 表名 來重新整理,不要使用impala-shell -r 或  invalidate metadata

• 9、如果執行sql的結果內容較多的話可以使用 impala-shell -b 將一些不必要的樣式輸出去掉 

Impala效能優化

執行計畫 查詢sql執行之前,先對該sql做乙個分析,列出需要完成這一項查詢的詳細方案 命令 explain sql profile 要點 1 sql優化,使用之前呼叫執行計畫 2 選擇合適的檔案格式進行儲存 3 避免產生很多小檔案 如果有其他程式產生的小檔案,可以使用中間表 4 使用合適的分割槽技...

Impala記憶體優化

一.引言 hadoop生態中的nosql資料分析三劍客hive hbase impala分別在海量批處理分析 大資料列式儲存 實時互動式分析各有所長。尤其是impala,自從加入hadoop大家庭以來,憑藉其各個特點鮮明的優點博取了廣大大資料分析人員的歡心。impala通過主節點生成執行計畫樹並分發...

Impala實踐之十一 parquet效能測試

之前一直考慮更換impala的檔案儲存格式為parquet,但是沒有立即使用,最近又做了一些測試,看看parquet是否真的有用。在測試的時候順便測了一下compute語句的效果,一起作為參考。下面抽出乙個小業務的部分測試結果來展示。庫名和表名當然不是真的。表名行數 字段數物理儲存大小 ain342...