Hive 聚合函式

2021-10-13 03:12:35 字數 936 閱讀 8183

用途:計算總體標準差

格式:t stddev(t,t,t,...)

用途:計算樣本標準差

格式:t stddev_samp(t,t,t,...)

用途:返回組內某個數字列的方差

介面格式:double variance(column name)

用途:返回組內某個數字列的方差

介面格式:double var_pop(column name)

用途:返回組內某個數字列的無偏樣本方差

介面格式:double var_samp(column name)

用途:返回組內某個數字列的標準差

格式:double stddev_pop(column name)

用途:返回組內兩個數字列的總體協方差

格式:double covar_pop(col1,col2)

用途:返回組內兩個數字列的樣本協方差

格式:double covar_samp(col1,col2)

用途:返回組內兩個數字列的皮爾遜相關係數

格式:double corr(col1,col2)

用途:返回消除了重複元素的陣列

格式:array collect_set(column name)

用途:返回允許重複元素的陣列

格式:array collect_list(column name)

用途:該函式將已經排序的分區分到x個桶中,並為每行分配乙個桶號。這可以容易的計算三分位,四分位,十分位,百分位和其它通用的概要統計

格式:integer ntile(integer)

用途:返回組內某個列精確的第p位百分數,p必須在0和1之間

格式:double percentile(bigint,double)

Hive高階聚合函式

0 基礎知識 1 pv page view 頁面訪問量 2 uv user view 訪問人數 3 uv表的資料如下 4 統計每個月的使用者瀏覽量,distinct 關鍵字是去除重複的值 select month,count distinct id from uv group by month 1 ...

Hive高階聚合函式

基礎知識 1 pv page view 頁面訪問量 2 uv user view 訪問人數 3 uv表的資料如下 4 統計每個月的使用者瀏覽量,distinct 關鍵字是去除重複的值 select month,count distinct id from uv group by month 1 un...

Hive高階聚合函式 group by擴充套件

目錄 指定多種聚合的維度 層次,對多個group by union all進行替換 簡化 可實現從右到左遞減多級的統計,顯示統計某一層次結構的聚合 可以實現多個任意維度的查詢,會統計所選列中值的所有組合的聚合 按照一定規則給統計的各維度組合打標,並返回標識值。1.group by擴充套件 group...