使用apache下pig的一點總結

2022-07-17 09:51:08 字數 560 閱讀 4326

今天下午在公司用pig來實現一種資料分析的演算法,感覺很不錯,在這裡做乙個記錄,主要是實現一種邏輯關係。

x1       y1

x2       y2

x3       y3

x1        y4

x5        y5

x表示使用者,y表示使用者所買的物品

首先可以做一次join關聯:(對資料自己本身做一關聯join操作)

x1         y1        x1        y1

x1          y1        x1        y4

x2          y2        x2        y2

x3          y3        x3        y3

x5          y5        x5        y5 

然後我們只保留兩列y

對y做group和count操作就能獲得物品和物品之間的關係了,就可以根據排行推薦給使用者了。

是不是很簡單啊,這可花了一兩個小時才想出來的演算法啊,感覺還不錯,在此記錄一下,希望對其它人也有幫助。

MyEclipse Tomcat的一點使用經驗

我用的是myeclipse6.5 1 編碼 在project裡可以設定整個工程的編碼,而對於每個檔案的編碼則是在開啟檔案後,在edit下拉列表的最下方有乙個setencoding,那裡可以設定。2 關閉自動更新 在window preferences myeclipse的community esse...

Unix Linux環境下多一點不如少一點

正如很多人所知道的 path環境變數裡存著一張目錄列表,當使用者要執行某一程式時,系統就會按照列表中的內容去查詢該程式的位置。當程式名前不帶點斜線 時 path就會起作用。對於普通使用者和root使用者 path裡預設是不包含 來指定使用者的當前目錄。這在本機進行指令碼開發的程式設計師來說卻不方便,...

Unix Linux環境下多一點不如少一點

正如很多人所知道的 path環境變數裡存著一張目錄列表,當使用者要執行某一程式時,系統就會按照列表中的內容去查詢該程式的位置。當程式名前不帶點斜線 時 path就會起作用。對於普通使用者和root使用者 path裡預設是不包含 來指定使用者的當前目錄。這在本機進行指令碼開發的程式設計師來說卻不方便,...