hive 去重 字串 hive 函式

2021-10-13 01:35:55 字數 1076 閱讀 2302

substr(string a, int start, [int len]),substring(string a, intstart, [int len]),用法一樣,三個引數

返回值: string

說明:返回字串a從start位置開始,長度為len的字串,下標預設為1.若沒有長度預設到結尾。

round:round(column_name,decimals) 把數值字段四捨五入為指定的小數字數。

column_name 要捨入的字段。

decimals 規定要返回的小數字數。

with 臨時表 as():建立臨時中間表

with tmp_a as (selectf1,f2,f3from test1

tmp_b as(selectf1,f4,f5from test2

concat(string a/col, string b/col…):返回輸入字串連線後的結果,支援任意個輸入字串;

concat_ws(separator, str1, str2,...):它是乙個特殊形式的 concat()。第乙個引數剩餘引數間的分隔符。分隔符可以是與剩餘引數一樣的字串。如果分隔符是 null,返回值也將為 null。這個函式會跳過分隔符引數後的任何 null 和空字串。分隔符將被加到被連線的字串之間;

collect_set(col):函式只接受基本資料型別,它的主要作用是將某字段的值進行去重彙總,產生array型別字段。

hive> select concat_ws('|',collect_set(cplb_zw)) from ods_sales_orders;

ok_c0

服裝|配件|自行車

計算日期差

datadiff:支援的格式:

yyyy-mm-dd hh:mm:ss

yyyy-mm-dd

其它符號格式時:

select  datediff(regexp_replace('2015/4/15', "/", "-"),regexp_replace('2013/2/15', "/", "-"))

from_unixtime:時間戳轉日期函式

unix_timestamp:日期轉時間戳函式

hive 去重 字串 Hive去除重複資料操作

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能 hive的組成部分 直譯器 編譯器 優化器 執行器 hive具有sql資料庫的外表,但應用場景完全不同,hive只適合用來做批量資料統計分析 hive中的資料表分為內部表 外部表 當刪除內...

hive 列表去重 Hive 資料去重

實現資料去重有兩種方式 distinct 和 group by 1.distinct消除重複行 distinct支援單列 多列的去重方式。單列去重的方式簡明易懂,即相同值只保留1個。多列的去重則是根據指定的去重的列資訊來進行,即只有所有指定的列資訊都相同,才會被認為是重複的資訊。1 作用於單列 se...

Hive字串函式

字串函式 1.int ascii string str 返回第乙個字元的ascii碼值 demo select ascii abcde result 97 string 2.base64 binary bin 二進位制轉為base 64 3.int character length string s...