推薦系統實戰第二章 利用使用者行為資料

2021-10-07 12:09:26 字數 1936 閱讀 3094

1、使用者行為資料簡介

1.1 使用者行為分類

a. 顯性反饋行為:使用者明確表示對物品喜好的行為;比如評分,反饋喜好與否

b. 隱性反饋行為:頁面瀏覽行為

2、 使用者行為分析

2.1 使用者活躍度和物品流行度的分布

長尾分布:英文中大部分詞的詞頻很低,只有很少的詞被經常使用

2.2 使用者活躍度和物品流行度的關係

僅僅基於使用者行為資料設計的推薦演算法一般稱為協同過濾演算法。

分類: 基於使用者的協同過濾演算法 & 基於物品的協同過濾演算法

3、實驗設計和演算法評測

3.1 資料集

3.2 實驗設計

a、資料集分份:將使用者行為資料集按照均勻分布隨機分成m份,挑選乙份作為測試集,將剩下的m-1份作為訓練集

b、模型訓練: 在訓練集上建立使用者興趣模型,並在測試集上對使用者行為進行**,統計出相應的評測指標。(進行m次)

c、結果評價:對m次實驗測出的評測指標的平均值作為最終的評測指標。

3.3 評測指標

演算法精度 = 準確率/召回率

覆蓋率新穎度:推薦列表中的物品的平均流行度度量新穎度

4、 基於鄰域的演算法

4.1 基於使用者的協同過濾演算法(user collaboration filter)

步驟:a、找到和目標使用者興趣相似的使用者集合

b、找到這個集合中的使用者喜歡的且目標使用者沒有聽說過的物品推薦給目標使用者。

指標評價:準確率、召回率、流行度、覆蓋率

使用者相似度計算的改進

4.2 基於物品的協同過濾演算法(item collaboration filter)

利用使用者的歷史行為給推薦結果提供推薦解釋

4.3 usercf 和itemcf的對比

usercf的推薦更社會化反應了使用者所在的小型興趣群體中物品的熱門程度

itemcf的推薦更加個性化反映了使用者自己的興趣傳承

指標usercf

itemcf

效能適用於使用者較少的場合,如果使用者很多,那麼計算使用者相似度矩陣代價很大

適用於物品數明顯小於使用者數的場合,如果物品很多,網頁計算物品相似度矩陣代價很大

領域時效性較強,使用者個性化興趣不太明顯的領域

長尾物品豐富,個性化需求強烈的領域

實時性使用者有新行為不一定造成推薦結果的立刻變化

使用者有新行為一定會導致推薦結果的實時變化

冷啟動在新使用者對很少的物品產生行為後,不能立即對他進行個性化推薦,因為使用者相似度錶是每隔一段時間離線計算的。新物品上線後一段時間一旦有使用者對物品產生行為,就可以將新物品推薦給和它產生行為的使用者興趣相似的其他使用者

推薦理由

很難提供令使用者信服的推薦解釋

利用使用者的歷史行為給使用者做推薦解釋可以令使用者比較信服

5、隱語義模型

5.1 基礎演算法

核心思想:通過隱含特徵(latent factor model,lfm)聯絡使用者興趣和物品

基於興趣分類的方法需要解決三個問題:

a、如何給物品進行分類

b、如何確定使用者對哪些類的物品感興趣以及感興趣的程度

c、對於乙個給定的類,選擇哪些屬於這個類的物品推薦給使用者,以及如何確定這些物品在乙個類的權重

5.2 基於lfm的實際系統的例子

雅虎(還需要整理)

6、基於圖的模型

6.1 使用者行為資料的二分圖表示

6.2 基於圖的推薦演算法

a、兩個頂點之間的路徑數

b、兩個頂點之間路徑的長度

c、兩個頂點之間的路徑經過的頂點

-相關性高的一對頂點一般具有如下特徵

a、兩個頂點之間有很多路徑相連

b、鏈結兩個頂點之間的路徑長度都比較短

c、鏈結兩個頂點之間的路徑不會經過出度比較大的頂點

#備註:頂點的出邊條數稱為該頂點的出度,頂點的入邊條數稱為該頂點的入度

(有很多路可以到達,路徑很短,不容易走錯)

推薦系統實踐 項亮(2)利用使用者行為資料

目錄 第2章 利用使用者行為資料 2.1 使用者行為資料簡介 2.2 使用者行為分析 2.2.1 使用者活躍度和物品流行度的分布 長尾分布 2.2.2 使用者活躍度和物品流行度的關係 2.3 實驗設計和演算法評測 2.4 基於領域的演算法 2.4.1 基於使用者的協同過濾演算法usercf 2.4....

深度學習推薦系統 第二章

推薦模型演化 協同過濾 usercf 基於使用者相似度 itemcf 基於物品相似度 相似度計算 cosine similarity 皮爾遜相關係數 引入使用者平均分,減少了使用者評分偏置影響 還可以引入物品平均分,減少物品評分偏置對結果的影響 usercf具備強的社交特性,itemcf適用於興趣變...

實戰智慧型推薦系統(6) 使用者行為分析

使用者行為資料 為了讓推薦結果個性化,就需要深入了解使用者。生活中通過 聽其言,觀其行 來了解乙個人。而對於演算法,則是分析使用者行為日誌。長尾分布 1932年,哈佛大學的語言學家zipf 在研究英文單詞詞頻時發現,如果將單詞出現的頻率按照由高到低排列,則每個單詞出現的頻率和它在熱門排行榜中排名的常...