大資料 專案流程

2021-10-01 21:47:06 字數 2046 閱讀 6874

1.資料的預處理階段

2.資料的入庫操作階段

3.資料的分析階段

4.資料儲存到資料庫階段

5.資料的查詢顯示階段

reduce:

driver:

create table 表名(

videoid string,

uploader string,

age int

row format delimited

fields terminated by ":"

collection items terminated by ","

stored as textfile;

(orc)格式

create table video_user_orc (

uploader string,

videos int,

friends int)

row format delimited

fields terminated by ","

stored as orc;

load data local inpath '資料路徑 ' into table 表名;
insert into table orc表 select *from 元資料表;
hive -e 'select * from 庫名.表名 where 條件'

> 要儲存的路徑

替換引號為空 :%s/"//g

替換[ 為空 :%s/[//g

替換] 為空 :%s/]//g

create external table rate(

videoid string,

uploader string,

age int,

category array,

length int,

views int,

rate float,

ratings int,

comments int,

relatedid array

)row format delimited

fields terminated by "\t"

collection items terminated by ","

stored as textfile;

load data local inpath '資料路徑' overwrite into table 外部表名;
create table hbase_rate(

videoid string,

uploader string,

age int

stored by 'org.apache.hadoop.hive.hbase.hbasestoragehandler'

with serdeproperties(

=":key,data:uploader,data:age,data:category,data:length,data:views,data:rate,data:ratings,data:comments,data:relatedid"

)tblproperties(

"hbase.table.name"

="表名"

);

insert into table 表名 select * from 外部表名;
public static void main(string[

] args) throws exception

}}

public static void main(string[

] args) throws exception

}}

離線大資料專案流程

mapreduce 資料清洗 hive textfile格式 create table 表名 a string b string row format delimited fields terminated by 指定分隔符 stored as textfile load data local in...

大資料介紹及大資料專案流程

字面意思理解 大量的資料,海量的資料 資料集的大小已經遠遠超過了現有普通資料庫軟體和工具的處理能力的資料1.海量化 資料量大 多 2.多樣化 結構化資料,半結構化資料,和非結構化資料 3.快速化 資料的增長速度快 4.值 海量資料價值高1.海量資料快速查詢 2.海量資料的儲存 資料量大,單個大檔案 ...

大資料專案3

gmv 今天提交訂單的金額總和,不管是否支付 全站pv 頁面瀏覽量大砍一次就是乙個pv再重新整理一次又是乙個pv 全站uv 去重的訪客總和set mapreduce.framework.name local 本地 set mapreduce.framework.name yarn yarn set ...