2、評測指標
(3)覆蓋率
(4)多樣性
(5)新穎性
(6)驚喜度
(7)信任度
(8)實時性
(9)健壯性
乙個完整的推薦系統一般需要使用者、物品提供者和提供推薦系統的**三個參與方。
**準確度是推薦系統領域的重要質變,但是準確的**並不代表好的推薦(因為使用者可能不管你推不推薦都會購買,失去了推薦的意義)。
通過日誌系統獲得使用者行為資料,然後進行訓練和測試。
在上線測試前,需要一些真實使用者在需要測試的推薦系統上完成一些任務,觀察和記錄他們的行為,並讓他們回答一些問題。
缺點:成本很高;雙盲實驗的設計很困難;測試環境和真實環境下的行為可能有差異。
離線實驗的優化目標:最大化**準確度,使得覆蓋率》a,多樣性》b,新穎性》c,其中a、b、c的取值應該視不同的應用而定。
可以通過離線實驗計算。實際操作過程中,推薦系統可能更偏向於對使用者進行topn的推薦。
① 評分**
根據使用者對物品的歷史評分學習使用者的興趣模型,並**使用者在將來看到乙個物品的評分。
評分**的**準確度一般通過均方根誤差rmse和平均絕對誤差mae計算。
對於測試集中的乙個使用者u和物品i,令rui是使用者u對物品i的實際評分,那麼rui
^\hat}
rui^
r ms
e=∑u
,i∈t
(rui
−rui
^)∣t
∣rmse = \frac - \hat})}}}
rmse=∣
t∣∑u
,i∈t
(ru
i−r
ui^
)ma
e=∑u
,i∈t
∣rui
−rui
^∣∣t
∣mae = \frac - \hat}|}}
mae=∣t
∣∑u,
i∈t
∣rui
−ru
i^
∣優缺點:rmse加大了對**不准的使用者物品評分的懲罰(平方的懲罰),因而對系統的評測更加苛刻。如果評分系統是基於整數建立的,那麼對**結果取整會降低mae的誤差。
② topn推薦
topn的**準確率一般通過準確率(precision)/召回率(recall)度量。
r ec
all=
∑u∈u
∣r(u
)∩t(
u)∣∑
u∈ut
(u
)recall = \frac}}
recall
=∑u∈
ut(
u)∑u
∈u∣
r(u)
∩t(u
)∣
p re
cisi
on=∑
u∈u∣
r(u)
∩t(u
)∣∑u
∈ur(
u)
precision = \frac}}
precis
ion=
∑u∈u
r(u
)∑u∈
u∣r
(u)∩
t(u)
∣一般會選取不同推薦列表的長度n,計算出一組準確率/召回率,然後畫出準確率/召回率曲線。
覆蓋率描述乙個推薦系統對物品長尾(非主流物品)的發掘能力。
多樣性描述了推薦列表中物品兩類之間的不相似性。假設s(i,j)∈[0,1]定義了物品i和j之間的相似度,那麼使用者u的推薦列表r(u)的多樣性定義為:
d iv
ersi
ty=1
−∑i,
j∈r(
u),i
≠js(
i,j)
12∣r
(u)∣
(r(u
)∣−1
)diversity = 1 - \frac{}s(i,j)}|r(u)|(r(u)|-1)}
divers
ity=
1−21
∣r(
u)∣(
r(u)
∣−1)
∑i,j
∈r(u
),i
=j
s(i,
j)
d iv
ersi
ty=1
∣u∣∑
u∈ud
iver
sity
(r(u
))
diversity = \frac\sum_
divers
ity=
∣u∣1
u∈u
∑di
vers
ity(
r(u)
)一般認為推薦的內容要符合使用者偏好多樣性分布。
評測新穎性最簡單的方法是利用推薦結果的平均流行度,但是要準確地統計還需要做使用者調查。
如果推薦結果和使用者的歷史興趣不相似,但卻讓使用者覺得滿意,那麼驚喜度很高;而推薦的新穎性僅僅取決於使用者是否聽說過這個推薦結果。
參考**:
yuan cao zhang、diarmuid ó séaghdha、daniele quercia和 tamas jambor的「auralist: introducing serendipity into music recommendation.」。
tomoko murakami、koichiro. mori和ryohei orihara的「 metrics for evaluating the serendipity of recommendation lists」。
需要實時地更新推薦列表來滿足使用者新的行為變化;能夠將新加入系統的物品推薦給使用者(推薦系統處理物品冷啟動的能力)。
衡量乙個推薦系統抗擊作弊的能力。主要利用模擬攻擊,向資料集注入雜訊,對比注入雜訊前後的推薦列表的差別。在實際系統中,提高系統健壯性的方法:①選擇健壯性高的演算法;②設計推薦系統時盡量使用代價較高的使用者行為;③在使用資料前,進行攻擊檢測,對資料進行清理。
推薦系統 電影推薦系統(一)
二 電影推薦思路總結 資料儲存部分 離線推薦部分 實時推薦部分 系統初始化部分 離線推薦部分 實時推薦部分 業務系統部分 使用者電影特徵提取時,必須要有對應的資料,電影表,使用者表,使用者評價表。通過als演算法對評價表進行計算,計算出電影的特徵矩陣。通過電影特徵的矩陣計算得出每個電影最相似的幾個電...
談談推薦系統(一)什麼是推薦系統
前言 上個月公司的同事提議組內做幾次關於資料探勘的技術串講交流下學習和工作經驗,本著提攜新人的考慮,建議博主也講點什麼。開始時博主想簡單講一講推薦演算法的協同過濾演算法。後來考慮到其實串講不僅僅是和其他人交流分享,也是對自己已有知識的鞏固。想一想還是加點挑戰,談談推薦系統吧 為什麼選推薦系統呢,原因...
推薦系統系列1 推薦系統評測指標
0 前言 什麼才是好的推薦系統?這是推薦系統評測的需要解決的首要問題。那我們怎麼去判斷乙個系統的好壞呢?我們認為乙個好的推薦系統不僅僅能夠準確的 使用者的行為,而且還能夠擴充套件使用者的視野,幫助使用者發現那些他們可能會感興趣但卻不那麼容易發現的東西。評價乙個推薦系統的好壞一般有幾個不同的指標,這些...