Hive專案實戰一

2021-09-29 18:30:24 字數 692 閱讀 1887

1.需求描述

2.資料來源結構說明

資料來源1: user.txt

資料樣例:     

資料樣例中的三個字段結構:

上傳者使用者名稱

string

int朋友數量

int資料來源2: video.txt  

資料樣例:

fqshwyqgqsw        lonelygirl15736        people& blogs133        151763        3.01666        765        fqshwyqgqsw        lfaay1p_2is5lelnivymqo        vw6zpqxjce4        vpuaf43vc-q        zllfqzcc2_m        it2d7lau_ta        kgrx8tgzeeu        aqwdqi1vd6o        kzwa8nblueo        x3ctufccf5k        ble9n2kdigc        r24fone2cds        iay5q60cmyy        mud0hcenhiu6oucp6uj2ba        dv0y_uohrlc8yoxhsumlga        h59nxann-oo113yn3sv0eo

資料樣例中的字段結構:

11 位字串

**次數

滿分 5 分流量

HIVE專案實戰

字段 備註詳細描述 video id 11位字串 uploader agecategory length views 次數 rate 滿分5分 ratings 流量conments related ids 2 使用者表 表6 14 使用者表 字段備註 字段型別 uploader 上傳者使用者名稱 s...

Hive專案實戰三

這裡總共需要建立4張表,明明只有兩個資料檔案,為什麼要建立4張表呢?因為這裡建立的表要使用orc的壓縮方式,而不使用預設的textfile的方式,orc的壓縮方式要想向表中匯入資料需要使用子查詢的方式匯入,即把從另一張表中查詢到的資料插入orc壓縮格式的表匯中,所以這裡需要四張表,兩張textfil...

hive 專案實戰 2

建表 建立表這裡總共需要建立4張表,明明只有兩個資料檔案,為什麼要建立4張表呢?因為這裡建立的表要使用orc的壓縮方式,而不使用預設的textfile的方式,orc的壓縮方式要想向表中匯入資料需要使用子查詢的方式匯入,即把從另一張表中查詢到的資料插入orc壓縮格式的表匯中,所以這裡需要四張表,兩張t...