hive 去重字串 hive 函式

substr(string a, int start, [int len]),substring(string a, intstart, [int len])，用法一樣，三個引數

返回值: string

說明：返回字串a從start位置開始，長度為len的字串,下標預設為1.若沒有長度預設到結尾。

round:round(column_name,decimals) 把數值字段四捨五入為指定的小數字數。

column_name 要捨入的字段。

decimals 規定要返回的小數字數。

with 臨時表 as()：建立臨時中間表

with tmp_a as (selectf1,f2,f3from test1

tmp_b as(selectf1,f4,f5from test2

concat(string a/col, string b/col…)：返回輸入字串連線後的結果，支援任意個輸入字串;

concat_ws(separator, str1, str2,...)：它是乙個特殊形式的 concat()。第乙個引數剩餘引數間的分隔符。分隔符可以是與剩餘引數一樣的字串。如果分隔符是 null，返回值也將為 null。這個函式會跳過分隔符引數後的任何 null 和空字串。分隔符將被加到被連線的字串之間;

collect_set(col)：函式只接受基本資料型別，它的主要作用是將某字段的值進行去重彙總，產生array型別字段。

hive> select concat_ws('|',collect_set(cplb_zw)) from ods_sales_orders;

ok_c0

服裝|配件|自行車

計算日期差

datadiff：支援的格式：

yyyy-mm-dd hh:mm:ss

yyyy-mm-dd

其它符號格式時：

select datediff(regexp_replace('2015/4/15', "/", "-"),regexp_replace('2013/2/15', "/", "-"))

from_unixtime：時間戳轉日期函式

unix_timestamp:日期轉時間戳函式

hive 去重字串 Hive去除重複資料操作

hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類sql查詢功能 hive的組成部分直譯器編譯器優化器執行器 hive具有sql資料庫的外表，但應用場景完全不同，hive只適合用來做批量資料統計分析 hive中的資料表分為內部表外部表當刪除內...

hive 列表去重 Hive 資料去重

實現資料去重有兩種方式 distinct 和 group by 1.distinct消除重複行 distinct支援單列多列的去重方式。單列去重的方式簡明易懂，即相同值只保留1個。多列的去重則是根據指定的去重的列資訊來進行，即只有所有指定的列資訊都相同，才會被認為是重複的資訊。1 作用於單列 se...

Hive字串函式

字串函式 1.int ascii string str 返回第乙個字元的ascii碼值 demo select ascii abcde result 97 string 2.base64 binary bin 二進位制轉為base 64 3.int character length string s...

hive 去重 字串 hive 函式

hive 去重 字串 Hive去除重複資料操作

hive 列表去重 Hive 資料去重

Hive字串函式

相關推薦

hive 去重字串 hive 函式

hive 去重字串 Hive去除重複資料操作