Hive 四種排序方式

2021-10-03 04:37:11 字數 484 閱讀 3265

hive中4種排序的區別

共有四種排序:order by,sort by ,distribute by,cluster by

order by

全域性排序;

對輸入的資料做排序,故此只有乙個reducer(多個reducer無法保證全域性有序);

只有乙個reducer,會導致當輸入規模較大時,需要較長的計算時間;

sort by

非全域性排序;

在資料進入reducer前完成排序;

當mapred.reduce.tasks>1時,只能保證每個reducer的輸出有序,不保證全域性有序;

distribute by

按照指定的字段對資料進行劃分輸出到不同的reduce中;

常和sort by一起使用,並且distribute by必須在sort by前面;

cluster by

相當於distribute by+sort by,只能預設公升序,不能使用倒序;

Hive 中的四種排序

1 order by 可以指定desc 降序 asc 公升序 order by會對輸入做全域性排序,因此只有乙個reducer 多個reducer無法保證全域性有序 然而只有乙個reducer,會導致當輸入規模較大時,消耗較長的計算時間。create table temperature year i...

hive的四種排序比較

hive 的四種排序對比 order by 會對輸入做全域性排序 因此只有乙個reducer 多個reducer無法保證全域性有序 只有乙個reducer,會導致當輸入規模較大時,需要較長的計算時間 在order by 狀態下所有資料會到一台伺服器進行reduce操作也即只有乙個reduce,如果在...

Hive 中的四種排序 舉例

1 order by 可以指定desc 降序 asc 公升序 order by會對輸入做全域性排序,因此只有乙個reducer 多個reducer無法保證全域性有序 然而只有乙個reducer,會導致當輸入規模較大時,消耗較長的計算時間。create table temperature year i...