Pig語言的學習

2021-06-29 09:23:29 字數 729 閱讀 1869

pig:是基於hadoop並行資料流語言

pig:輸入輸出

第一步:載入load

最後執行完資料流之後可以可以:store 儲存  或 dump輸出到螢幕

pig:關係操作

foreach: 對於每一條記錄,可以選擇相應的字段,傳給下乙個操作符(相當於sql中選擇需要的列,可以進行count和sum操作)

filter:    過濾(相當於sql的where)

group: 分組,按照乙個一段進行分組,(通過其中包含字段)

order: 排序 (通過其中包含字段)

distinct:  去重只會對整個記錄去重,不會單獨對某個字段去除

(最好兩個關聯字段不要重複名字,可以通過起別名的方式)

limit:   限制資料量。

count:    使用pig統計行數時,要選擇乙個不為空的列。

flatten:  可以將分組的字段的組合拆開。

pig: 一些基本概念:關係(

relation

)、包(

bag--可

看做資料庫

)、元組(

tuple--可

看做資料庫中行

)、字段(

field

)、資料(

data

)的關係

乙個關係是乙個包,乙個包由乙個或多個元組組成,乙個元組由多個字段組成

注意:每個元組的字段的數量可以不一樣的

Pig 安裝總結學習

url size medium color red b 2.配置環境 b color size pig工作模式 本地模式 只需要配置path環境變數 bin即可,適用於測試 mapreduce模式 需要新增環境變數pig classpath conf 指向hadoop的conf目錄,我的是hadoo...

初學pig的筆記

資料分析引擎 pig 一 什麼是pig?安裝和配置 1 最早由yahoo開發,後來給apache 2 支援語句piglatin語句,類似sql 3 翻譯器 piglatin語句 mapreduce spark 從0.17開始支援 4 安裝和配置 tar zxvf pig 0.17.0.tar.gz ...

總結 Pig的安裝部署

tar zxvf pig 0.17.0.tar.gz c 2 建立軟鏈結 ln s pig 0.17.0 pigvi bashrc在檔案末尾加上這兩行 export pig home home 使用者名稱 pig 0.17.0 export path pig home bin path 1 本地模式...