hive sql之視窗函式。

一、row_number 函式

區別於其它排序函式，相當於多了乙個排序的列。

資料準備：

name money

ming 12

yang 23

ming 35

ming 54

yang 43

1、按照其中money 進行排序並增加一行。

select name,money,
row_number
() over (order by money) from lei_test;
結果：ming 12
1yang 23
2ming 35
3yang 43
4ming 54
5

2、row_number 按照name 進行分組，並按照 money 進行排序。

select name,money ,
row_number()
over
(partition by name order by money) from lei_test;
ming 12
1ming 35
2ming 54
3yang 23
1yang 43
2

3、實現分組取row_number 為確定值的資料（比如 row_number 等於一），即取出的資料是按照name進行分割槽，並按照money 進行排序後的資料。

select name,money,tb from (select name,money,
row_number
() over (partition by name order by money)
) tb from lei_test ) where tb =1;
結果：ming 12
1yang 23
1

二、

1、rank() 函式和row_number 函式類似就是他會跳過成績相同的資料（如果按照 name partiton並按照money進行order by 的化他相同的money 就會 row_number 會相同）

例如：

select name、money,
rank
() over (partition by name order by money) from lei_test;
結果為：
ming 12
1ming 12
1ming 35
3ming 54
4yang 23
1yang 43
2

2、dense_rank

dense_rank 函式和row_number函式類似。（區別：相同成績會並列，序列排序）

select name,money,
dense_rank()
over
(partition by name order by money) from lei_test;
結果ming 12
1ming 12
1ming 35
2ming 54
3yang 23
1yang 43
2

3、cume_dist() 小於等於當前值的行數/分組內總行數的比例。

select name,money cume_dist
() over (partition by name order by money) from lei_test;
結果為：
ming 12
0.5ming 12
0.5ming 35
0.75
ming 54
1.0yang 23
0.5yang 43
1.0

4、percent_rank() 分組當前行的rank值-1/分組的總行數-1

select name,money,
percent_rank()
over
(partition by name order by money) from lei_test;
結果為ming 12
0.0ming 12
0.0ming 35
0.6666666666666666
ming 54
1.0yang 23
0.0yang 43
1.0

5、ntile(n)函式，將資料分成n份

select name,money ,
ntile(2
) over (partition by name order by money) from lei_test;
結果為：
ming 12
1ming 12
1ming 35
2ming 54
2yang 23
1yang 43
2

三、視窗函式

1、leag(col，n,default)用於統計視窗內往上的n行值（上面可能只是給個排序行數這個返回的值）

select name,money,lead（money, 1）over (partition by name order by money) from lei_test; 返回結果： ming 12 12ming 12 35ming 35 54ming 54 null yang 23

43yang 43 null

與之對應的是顯示他之下的值。

select name,money,lag(money,1)

over(partition by name order by money)

from lei_test;

2、得到排序後的第乙個值

select name,money first_value
(money) over (partition by name ordre by money) from lei_test;
返回結果為：
ming 12
12ming 12
12ming 35
12ming 54
12yang 23
23yang 43
23

3、取出分組內排序後，截止到當前行，最後乙個值。

select name.money, last_value (money) over (partition by name order by money) from lei_test: 返回的結果為 ming 12 12ming 12 12ming 35 35ming 54 54yang 23 23yang 43

43

參考：

hive sql之視窗函式。

Hive之視窗函式

hive視窗函式 Hive sql視窗函式原始碼分析

Scala之視窗函式排序

hive sql之 視窗函式。

Hive之視窗函式

hive視窗函式 Hive sql視窗函式原始碼分析

Scala之視窗函式排序

相關推薦

hive sql之視窗函式。