清洗完資料放入表

2021-09-09 09:18:18 字數 1295 閱讀 1366

建立乙個log的表

create table log(user_id string,cid_sn string,mobile_data_ty string,os_ver string,mac 

string,resolution string,commit_time string,sdk_ver string,device_id_type string,city string,androidid

string,release_channel string,country string,time_zone string,os_name string,manufacture

string)partitioned by(time string,pai string)row format delimited fields terminated by ',';

linux資料本地上傳hive表

load data local inpath '/opt/b.txt' into table data partition(time='20190118',pai ='ios');
hdfs資料上傳hive表

load data inpath '/android' into table data partition(time='20190118',pai ='ios');
hive清空表

insert overwrite table data select * from data where 1=0;
清空分割槽

alter table data  drop partition (time='20180118');
取出日活躍的最後一條記錄(提前建立乙個active_day表分割槽只有乙個time)

insert into table active_day partition(time ='20180428')select user_id,cid_sn,mobile_data_ty,os_ver 

,mac,resolution,commit_time,sdk_ver,device_id_type,city,androidid,device_model,carrier,promotion_channe

over(partition by user_id order by commit_time)as rn from log where time ='20180428') as tmp where rn =

1;

對資料整體清洗完整版

資料形式 需要計算同一國家下的資料量,合併所有國家為一列,並計算乙個內購買量。三個資料集都是以下的形式 步驟 1 合併多列為一列,create time 不變 2 三個檔案合併為乙個檔案 按時間,國家 分組,合併重複項。3 看似簡單,其實三個csv除了國家之外,其他的都不一致。三個統計的維度也不是一...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...