hive工作中用到的一些優化策略

2021-09-27 02:54:51 字數 466 閱讀 8815

1、hive抓取策略

2、explain 顯示執行計畫

3、設定本地執行模式

4、平行計算

5、嚴格模式

6、hive排序

7、hive join

自動的mapjion

盡可能使用相同的連線鍵**化為乙個mr)

大表join大表 (不一定有用)

8、map-side聚合

9、合併小檔案 檔案資料小,容易在檔案儲存端造成壓力,給hdfs造成壓力,影響效率

10、去重統計:資料量小的時候無所謂,資料量大的情況下,由於count distinct操作需要用乙個reduce task來完成,這乙個reduce需要處理的資料量太大,就會導致整個job很難完成,一般count distinct使用先group by再count的方式替換

11、控制hive中map以及reduce的數量

13、hive-jvm重用

工作中用到的一些Linux命令

1.檢視檔案時間戳命令 root cdntest69 tools stat check error.xml file check error.xml size 256 blocks 8 io block 4096 regular file device 801h 2049d inode 525575...

工作中用到的命令

svn checkout username password 點評 1 將檔案checkout到本地目錄 svn checkout path path是伺服器上的目錄 例如 svn checkout svn 簡寫 svn co 2 往版本庫中新增新的檔案 svn add file 例如 svn ad...

工作中用到的Linux

1.top命令檢視cpu使用率 備註 在自己機器上不斷提供cpu使用率以獲取health alert命令 for i in seq 1 cat proc cpuinfo grep physical id wc l do while true do true done done2.scp命令跨伺服器遠...