大資料推薦系統專案

2022-07-16 04:15:14 字數 4145 閱讀 9475

推薦系統的本思想

• 利用使用者和物品的特徵資訊,給使用者推薦那些具有使用者喜歡的特徵的物品。

• 利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品。

• 利用和使用者相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他用

戶喜歡的物品。

• 知你所想,精準推送

– 利用使用者和物品的特徵資訊,給使用者推薦那些具有使用者喜歡的特徵的物品。

• 物以類聚

– 利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品。

• 人以群分

– 利用和使用者相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他使用者喜

歡的物品。

推薦系統的資料分析

• 要推薦物品或內容的元資料,例如關鍵字,分類標籤,基因描述等;

• 系統使用者的基本資訊,例如性別,年齡,興趣標籤等

• 使用者的行為資料,可以轉化為對物品或者資訊的偏好,根據應用本身的不同,

可能包括使用者對物品的評分,使用者檢視物品的記錄,使用者的購買記錄等。這

些使用者的偏好資訊可以分為兩類:

品的喜好,例如使用者購買了某物品,使用者檢視了某物品的資訊等等。

推薦系統的分類

• 根據實時性分類

– 離線推薦

– 實時推薦

• 根據推薦原則分類

– 基於相似度的推薦

– 基於知識的推薦

– 基於模型的推薦

• 根據推薦是否個性化分類

– 基於統計的推薦

– 個性化推薦

• 根據資料來源分類

– 基於人口統計學的推薦

– 基於內容的推薦

– 基於協同過濾的推薦

推薦演算法簡介

• 基於人口統計學的推薦

• 基於內容的推薦

• 基於協同過濾的推薦

• 混合推薦

基於人口統計學的推薦演算法

基於內容的推薦演算法

基於協同過濾的推薦演算法

• 協同過濾(collaborative filtering,cf)

• 基於近鄰的協同過濾

– 基於使用者(user-cf)

– 基於物品(item-cf)

• 基於模型的協同過濾

– 奇異值分解(svd)

– 潛在語義分析(lsa)

– 支撐向量機(svm)

協同過濾(cf)推薦方法

•基於內容(content based, cb)主要利用的是使用者評價過的物品的內 容特徵,

而cf方法還可以利用其他使用者評分過的物品內容

• cf可以解決cb的一些侷限 -物品內容不完全或者難以獲得時,依然可以通過

其他使用者的反饋給出推薦 -cf基於使用者之間對物品的評價質量,避免了cb僅

依賴內容可能造成的對物品質量 判斷的干擾 -cf推薦不受內容限制,只要其他

類似使用者給出了對不同物品的興趣,cf就可以給 使用者推薦出內容差異很大的

物品(但有某種內在聯絡)

分為兩類:基於近鄰和基於模型

基於使用者的協同過濾

基於物品的協同過濾

混合推薦

• 加權混合

– 用線性公式(linear formula)將幾種不同的推薦按照一定權重組合起來,具體權重的值需要

在測試資料集上反覆實驗,從而達到最好的推薦效果

• 切換混合

– 切換的混合方式,就是允許在不同的情況(資料量,系統執行狀況,使用者和物品的數目等)下,

選擇最為合適的推薦機制計算推薦

• 分割槽混合

– 採用多種推薦機制,並將不同的推薦結果分不同的區顯示給使用者

• 分層混合

– 採用多種推薦機制,並將乙個推薦機制的結果作為另乙個的輸入,從而綜合各個推薦機制的優

缺點,得到更加準確的推薦

推薦系統評測

• 讓使用者更快更好的獲取到自己

需要的內容

• 讓內容更快更好的推送到喜歡

它的使用者手中

• 讓**(平台)更有效的保留

使用者資源

推薦系統實驗方法

• 離線實驗

– 通過體制系統獲得使用者行為資料,並按照一定格式生成乙個標準的資料集

– 將資料集按照一定的規則分成訓練集和測試集

– 在訓練集上訓練使用者興趣模型,在測試集上進行**

– 通過事先定義的離線指標評測演算法在測試集上的**結果

• 使用者調查

– 使用者調查需要有一些真實使用者,讓他們在需要測試的推薦系統上完成一些任務;我們需要記錄

他們的行為,並讓他們回答一些問題;最後進行分析

– ab測試

推薦系統評測指標

• **準確度

• 使用者滿意度

• 覆蓋率

• 多樣性

• 驚喜度

• 信任度

• 實時性

• 健壯性

• 商業目標

推薦準確度評測

• 評分**

– 很多**都有讓使用者給物品打分的功能,如果知道使用者對物品的歷史評分,就可

以從中學習乙個興趣模型,從而**使用者對新物品的評分

– 評分**的準確度一般用均方根誤差(rmse)或平均絕對誤差(mae)計算

• top-n推薦

top-n推薦

– top-n推薦的**準確率一般用精確率(precision)和召回率(recall)來度量

準確率、精確率和召回率

•假如某個班級有男生80人,女生20人,共計100人,目標是找出所有女生。

現在 某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生

挑選出來了。那麼怎樣評估他的工作?

•將挑選結果用矩陣示意表來表示:定義tp, fn, fp, tn四種分類情況

•準確率(accuracy)

——正確分類的item數與總數之比

a =(20+50)/100 = 70%

•精確率(precision)

——所有被檢索到的item中,"應該被檢索到"的item佔的比例

p = 20/ (20+30) = 40%

•召回率(recall)

——所有檢索到的item佔所有"應該檢索到的item"的比例

r = 20 / (20+0) = 100%

大資料人才推薦系統 Talent RADAR

文章講的是大資料人才推薦系統 talent radar,8月9日,專注於大資料分析的人力資源公司 數聯尋英 攜手國內最大的雇主品牌諮詢及招聘解決方案提供商hiall,發布了基於大資料的精準員工推薦模式及解決方案 人才雷達 talent radar 該方案基於企業定製化的招聘需求,通過對社會化 及簡歷...

推薦系統2 大資料應用

首先普及一下資料量單位,然後再來看bat大資料應用 位元組 byte 8個二進位制位為乙個位元組 b 最常用的單位.1kb kilobyte 千位元組 1024b,1mb megabyte 兆位元組 簡稱 兆 1024kb,1gb gigabyte 吉位元組 又稱 千兆 1024mb,1tb tri...

大資料實時推薦系統的思考

昨晚思考了實時數倉的問題,對下列案例進行了如下思考.這個肯定不是實時推薦。那麼在拼多多中買了東西,馬上在小公尺瀏覽器中有京東的推薦,這個是不是實時?是實時推薦,但是不是大資料實時推薦。嚴格來講,談不上推薦。因為這種只是根據你買的東西a,推薦了類似商品名稱的商品給你。大資料實時推薦指的是,你買了a,我...