hive工作中用到的一些優化策略

1、hive抓取策略

2、explain 顯示執行計畫

3、設定本地執行模式

4、平行計算

5、嚴格模式

6、hive排序

7、hive join

自動的mapjion

盡可能使用相同的連線鍵**化為乙個mr）

大表join大表（不一定有用）

8、map-side聚合

9、合併小檔案檔案資料小，容易在檔案儲存端造成壓力，給hdfs造成壓力，影響效率

10、去重統計：資料量小的時候無所謂，資料量大的情況下，由於count distinct操作需要用乙個reduce task來完成，這乙個reduce需要處理的資料量太大，就會導致整個job很難完成，一般count distinct使用先group by再count的方式替換

11、控制hive中map以及reduce的數量

13、hive-jvm重用

工作中用到的一些Linux命令

1.檢視檔案時間戳命令 root cdntest69 tools stat check error.xml file check error.xml size 256 blocks 8 io block 4096 regular file device 801h 2049d inode 525575...

工作中用到的命令

svn checkout username password 點評 1 將檔案checkout到本地目錄 svn checkout path path是伺服器上的目錄例如 svn checkout svn 簡寫 svn co 2 往版本庫中新增新的檔案 svn add file 例如 svn ad...

工作中用到的Linux

1.top命令檢視cpu使用率備註在自己機器上不斷提供cpu使用率以獲取health alert命令 for i in seq 1 cat proc cpuinfo grep physical id wc l do while true do true done done2.scp命令跨伺服器遠...

hive工作中用到的一些優化策略

工作中用到的一些Linux命令

工作中用到的命令

工作中用到的Linux

相關推薦