提公升hive效率的最佳實踐

2021-08-29 02:39:38 字數 549 閱讀 7590

表相關

儲存格式:

避免使用text,json,有可能的haul也應避免sequence檔案;

理想的格式是rcfile (row columnar file)

壓縮:block compression 比 value compression更高效,最終結果及中間結果都應壓縮,

set hive.exec.compress.output=true;set hive.exec.compress.intermediate=true;

資料本地化儲存格式:

最好使用hdfs

大表進行分割槽:

資料是按時間序列積累的,或者每次查詢只需查詢部分資料不必對所有資料進行查詢時,可對大表記性分割槽,如

year/month/day或者continent/country/region/city,如此進行查詢時會跳過不相關資料。

查詢:避免使用order by 排序:

將排序操作放在reduce操作中

參考:best practices for hive efficiency

程式設計師效率提公升最佳實踐總結

軟體行業裡有一本名著叫 人月神話 其中提到兩個非常重要的概念 本質複雜度 essential complexity 和偶然複雜度 accident complexity 本質複雜度就是解決乙個問題時,無論怎麼做都必須要做的事,而偶然複雜度是因為選用的做事方法不當,而導致要多做的事。大部分程式設計師忙...

提公升你的效率

最近發現工作中,老是有些很讓人煩躁的事情,而這些事情你不做就沒有人去做,從而會導致整個專案就會是有你的進度而確定的。先簡單概述下,狀況 我負責整合工作 有兩三個同事負責提供庫,還有乙個專案經理打包和一名測試人員,大家坐的位置比較分散。我這邊的 量不是很多,庫那邊的同事也主要是修改。但他媽的這個工作的...

Spring JDBC的最佳實踐

其一 需要注意合理設定statement的fetchsize大小,即jdbctemplate暴露的fetchsize變數的取值。大量實踐證明,通常情況下,將fetchsize設定為30 50最為合理,但也存在特殊情況。fetchsize取值太大,jvm消耗的臨時記憶體會很多。其二 儲存或更新大批量的...