離線大資料專案流程

2021-10-01 21:47:06 字數 1144 閱讀 4682

mapreduce

資料清洗

hive

textfile格式

create table 表名(

a string ,

b string

)row format delimited

fields terminated by "指定分隔符"

stored as textfile;

load data local inpath '本地路徑' into table '表名'

orc格式

create table 表名(

a string ,

b string

)row format delimited

fields terminated by "指定分隔符"

stored as orc;

insert into table orc表名 select * from 原始表名;

hql語句執行方式

hive -e "select * from 表名 where 條件" > 寫入檔案的路徑

與hbase 關聯

1.建立hive中 的外部表

create external table 表名(

a string ,

b string

)row format delimited

fields terminated by "指定分隔符"

stored as textfile;

load data local inpath '本地路徑' into table '表名'

2.hive2hbase

對映表示例

create table hbase中的表名(

a string,

b string

) stored by 'org.apache.hadoop.hive.hbase.hbasestoragehandler'

tblproperties("hbase.table.name" = "hbase中的表名");

insert overwrite table hbase中的表名 select * from hive中的外部表名

4.phoenix

5.web頁面

大資料 專案流程

1.資料的預處理階段 2.資料的入庫操作階段 3.資料的分析階段 4.資料儲存到資料庫階段 5.資料的查詢顯示階段 reduce driver create table 表名 videoid string,uploader string,age int row format delimited fi...

大資料介紹及大資料專案流程

字面意思理解 大量的資料,海量的資料 資料集的大小已經遠遠超過了現有普通資料庫軟體和工具的處理能力的資料1.海量化 資料量大 多 2.多樣化 結構化資料,半結構化資料,和非結構化資料 3.快速化 資料的增長速度快 4.值 海量資料價值高1.海量資料快速查詢 2.海量資料的儲存 資料量大,單個大檔案 ...

大資料專案3

gmv 今天提交訂單的金額總和,不管是否支付 全站pv 頁面瀏覽量大砍一次就是乙個pv再重新整理一次又是乙個pv 全站uv 去重的訪客總和set mapreduce.framework.name local 本地 set mapreduce.framework.name yarn yarn set ...