Pig實現order by limit功能

2021-08-30 08:39:54 字數 719 閱讀 9927

下面,將介紹如何利用pig實現按多個值排序,並取每個組的前n個值。例如,取每個商品**前2的搜尋詞。

sku1,query11,pos11,50

sku1,query12,pos12,40

sku1,query13,pos13,20

sku2,query21,pos21,40

sku2,query22,pos22,30

sku3,query31,pos31,50

sku3,query32,pos32,20

sku3,query33,pos33,10

sku3,query43,pos43,5

如果,指令碼執行所需記憶體不足,則修改pig記憶體大小:export pig_heapsize=4192。再以本地模式執行pig

Pig效能優化

mapreduce job的很大一部分開銷在於磁碟io和資料的網路傳輸,如果能盡早的去除無用的資料,減少資料量,會提公升pig的效能。使用filter可以去除資料中無用的行 record 盡早的filter掉無用的資料,可以減少資料量,提公升pig效能。使用foreach generate可以去除資...

Pig簡單入門

pig專門用來處理來自於hdfs的資料,它提供了一套流式的資料處理語言,轉化為map reduce來處理hdfs的資料 pig包括用來描述資料分析程式的高階程式語言,以及對這些程式進行評估的基礎結構。pig突出的特點就是它的結構經得起 大量並行任務的檢驗,這使得它能夠處理大規模資料集。使用pig命令...

pig入門案例

測試資料位於 home hadoop luogankun workspace sync data pig person.txt中的資料以逗號分隔 1,zhangsan,112 2,lisi,113 3,wangwu,114 4,zhaoliu,115 score.txt中的資料以製表符分隔 1202...