大資料推薦系統專案

推薦系統的本思想

• 利用使用者和物品的特徵資訊，給使用者推薦那些具有使用者喜歡的特徵的物品。

• 利用使用者喜歡過的物品，給使用者推薦與他喜歡過的物品相似的物品。

• 利用和使用者相似的其他使用者，給使用者推薦那些和他們興趣愛好相似的其他用

戶喜歡的物品。

• 知你所想，精準推送

– 利用使用者和物品的特徵資訊，給使用者推薦那些具有使用者喜歡的特徵的物品。

• 物以類聚

– 利用使用者喜歡過的物品，給使用者推薦與他喜歡過的物品相似的物品。

• 人以群分

– 利用和使用者相似的其他使用者，給使用者推薦那些和他們興趣愛好相似的其他使用者喜

歡的物品。

推薦系統的資料分析

• 要推薦物品或內容的元資料，例如關鍵字，分類標籤，基因描述等；

• 系統使用者的基本資訊，例如性別，年齡，興趣標籤等

• 使用者的行為資料，可以轉化為對物品或者資訊的偏好，根據應用本身的不同，

可能包括使用者對物品的評分，使用者檢視物品的記錄，使用者的購買記錄等。這

些使用者的偏好資訊可以分為兩類：

品的喜好，例如使用者購買了某物品，使用者檢視了某物品的資訊等等。

推薦系統的分類

• 根據實時性分類

– 離線推薦

– 實時推薦

• 根據推薦原則分類

– 基於相似度的推薦

– 基於知識的推薦

– 基於模型的推薦

• 根據推薦是否個性化分類

– 基於統計的推薦

– 個性化推薦

• 根據資料來源分類

– 基於人口統計學的推薦

– 基於內容的推薦

– 基於協同過濾的推薦

推薦演算法簡介

• 基於人口統計學的推薦

• 基於內容的推薦

• 基於協同過濾的推薦

• 混合推薦

基於人口統計學的推薦演算法

基於內容的推薦演算法

基於協同過濾的推薦演算法

• 協同過濾（collaborative filtering，cf）

• 基於近鄰的協同過濾

– 基於使用者（user-cf）

– 基於物品（item-cf）

• 基於模型的協同過濾

– 奇異值分解（svd）

– 潛在語義分析（lsa）

– 支撐向量機（svm）

協同過濾（cf）推薦方法

•基於內容（content based, cb）主要利用的是使用者評價過的物品的內容特徵，

而cf方法還可以利用其他使用者評分過的物品內容

• cf可以解決cb的一些侷限 -物品內容不完全或者難以獲得時，依然可以通過

其他使用者的反饋給出推薦 -cf基於使用者之間對物品的評價質量，避免了cb僅

依賴內容可能造成的對物品質量判斷的干擾 -cf推薦不受內容限制，只要其他

類似使用者給出了對不同物品的興趣，cf就可以給使用者推薦出內容差異很大的

物品（但有某種內在聯絡）

分為兩類：基於近鄰和基於模型

基於使用者的協同過濾

基於物品的協同過濾

混合推薦

• 加權混合

– 用線性公式（linear formula）將幾種不同的推薦按照一定權重組合起來，具體權重的值需要

在測試資料集上反覆實驗，從而達到最好的推薦效果

• 切換混合

– 切換的混合方式，就是允許在不同的情況（資料量，系統執行狀況，使用者和物品的數目等）下，

選擇最為合適的推薦機制計算推薦

• 分割槽混合

– 採用多種推薦機制，並將不同的推薦結果分不同的區顯示給使用者

• 分層混合

– 採用多種推薦機制，並將乙個推薦機制的結果作為另乙個的輸入，從而綜合各個推薦機制的優

缺點，得到更加準確的推薦

推薦系統評測

• 讓使用者更快更好的獲取到自己

需要的內容

• 讓內容更快更好的推送到喜歡

它的使用者手中

• 讓**（平台）更有效的保留

使用者資源

推薦系統實驗方法

• 離線實驗

– 通過體制系統獲得使用者行為資料，並按照一定格式生成乙個標準的資料集

– 將資料集按照一定的規則分成訓練集和測試集

– 在訓練集上訓練使用者興趣模型，在測試集上進行**

– 通過事先定義的離線指標評測演算法在測試集上的**結果

• 使用者調查

– 使用者調查需要有一些真實使用者，讓他們在需要測試的推薦系統上完成一些任務；我們需要記錄

他們的行為，並讓他們回答一些問題；最後進行分析

– ab測試

推薦系統評測指標

• **準確度

• 使用者滿意度

• 覆蓋率

• 多樣性

• 驚喜度

• 信任度

• 實時性

• 健壯性

• 商業目標

推薦準確度評測

• 評分**

– 很多**都有讓使用者給物品打分的功能，如果知道使用者對物品的歷史評分，就可

以從中學習乙個興趣模型，從而**使用者對新物品的評分

– 評分**的準確度一般用均方根誤差（rmse）或平均絕對誤差（mae）計算

• top-n推薦

top-n推薦

– top-n推薦的**準確率一般用精確率（precision）和召回率（recall）來度量

準確率、精確率和召回率

•假如某個班級有男生80人，女生20人，共計100人，目標是找出所有女生。

現在某人挑選出50個人，其中20人是女生，另外還錯誤的把30個男生也當作女生

挑選出來了。那麼怎樣評估他的工作？

•將挑選結果用矩陣示意表來表示：定義tp, fn, fp, tn四種分類情況

•準確率(accuracy)

——正確分類的item數與總數之比

a =(20+50)/100 = 70%

•精確率(precision)

——所有被檢索到的item中，"應該被檢索到"的item佔的比例

p = 20/ (20+30) = 40%

•召回率(recall)

——所有檢索到的item佔所有"應該檢索到的item"的比例

r = 20 / (20+0) = 100%

大資料人才推薦系統 Talent RADAR

文章講的是大資料人才推薦系統 talent radar，8月9日，專注於大資料分析的人力資源公司數聯尋英攜手國內最大的雇主品牌諮詢及招聘解決方案提供商hiall，發布了基於大資料的精準員工推薦模式及解決方案人才雷達 talent radar 該方案基於企業定製化的招聘需求，通過對社會化及簡歷...

大資料實時推薦系統的思考

昨晚思考了實時數倉的問題，對下列案例進行了如下思考.這個肯定不是實時推薦。那麼在拼多多中買了東西，馬上在小公尺瀏覽器中有京東的推薦，這個是不是實時？是實時推薦，但是不是大資料實時推薦。嚴格來講，談不上推薦。因為這種只是根據你買的東西a，推薦了類似商品名稱的商品給你。大資料實時推薦指的是，你買了a，我...

大資料推薦系統專案

大資料人才推薦系統 Talent RADAR

推薦系統2 大資料應用

大資料實時推薦系統的思考

相關推薦