Hive去重複資料

2021-09-02 10:14:19 字數 644 閱讀 4846

hive資料去重

insert overwrite table store  

select t.p_key,t.sort_word from

( select p_key,

sort_word ,

row_number() over(distribute by p_key sort by sort_word) as rn

from store) t

where t.rn=1;

說明:[list]

[*]p_key為去重所依據的key,sort_word表示多個p_key的排列順序,這個關鍵字將決定哪個p_key將留下。

[*]t 為子查詢的別名,hive需要在每個子查詢後面加別名

[*]t.rn=1表示重複的資料只保留第乙個。

[*]distribute by 關鍵字指定分發的key,同乙個key將分發到同乙個reducer

[*]sort by 是單機範圍內排序,因此配合distribute by 就可以對某乙個關鍵字排序

[/list]

參考:[url=""]寫好hive 程式的五個提示[/url]

[url=""]hive 典型的中表內資料除重寫法[/url]

sql server 去重複資料

方法一 select distinct into ttemp from dr task log 將dr task log中不重複的資料插入到臨時表ttemp中 drop table dr task log 刪除原來的表 select into dr task log from ttemp 將ttem...

hive 去重 字串 Hive去除重複資料操作

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能 hive的組成部分 直譯器 編譯器 優化器 執行器 hive具有sql資料庫的外表,但應用場景完全不同,hive只適合用來做批量資料統計分析 hive中的資料表分為內部表 外部表 當刪除內...

MySQL DISTINCT 去重(過濾重複資料)

在使用 mysql select 語句查詢資料的時候返回的是所有匹配的行。例如,查詢 tb students info 表中所有 age 的執行結果如下所示。mysql select age from tb students info age 25 23 23 22 24 21 22 23 22 2...