推薦系統學習筆記 推薦系統現存問題

2021-10-15 00:02:28 字數 1545 閱讀 7508

單純以使用者和專案為驅動的推薦引擎並不能滿足相關使用者的實際需要,使用者在實際購買之中往往會結合自己的實際需要以及社交網路的推薦來做選擇;傳統的推薦演算法往往帶有很嚴重的「馬太效應」——推薦的商品往往是熱門的商品,導致熱門的商品更加熱門,而處在「長尾分布」上的商品仍然得不到重視。因此,將社交網路與個性化推薦相結合提高推薦的精確度是近年來的研究熱點。

目前推薦系統常採用的方法主要有基於內容的推薦基於網格的推薦、基於上下文情景的推薦協同過濾推薦

其中協同過濾(collaborative filtering,cf)推薦系統是推薦系統中最為常用並且有效的方法,可以分為基於記憶體的協同過濾基於模型的協同過濾

基於記憶體的協同過濾:根據使用者或者專案的相似度選出與目標使用者最相似的若干使用者的評分來對為評分的專案進行評分**。

基於模型的協同過濾:通過分析使用者和專案的內部規律,**使用者對於專案的偏好。一般分為聚類模型,分類模型和矩陣分解模型。傳統的矩陣分解模型有奇異值分解、概率矩陣分解和非負矩陣分解等,其中概率矩陣分解模型是其典型代表。目前概率矩陣分解技術還存在資料的高維稀疏性和海量資料環境下的擴充套件性等制約其進一步發展的瓶頸問題。

冷啟動問題

解決新使用者和新專案的推薦問題。

當新使用者加入系統時,沒有瀏覽或者評價過任何產品,因此系統中沒有使用者的行為資料,所以也就無法根據使用者的歷史行為**其行去,沒有辦法為新使用者提供推薦服務。

當新專案加入系統時,沒有使用者對其評價過,也不能被推薦。

冷啟動問題考慮的就是在乙個新開發的個性化推薦系統中,如何在系統一發布就可以讓使用者體驗到個性化推薦服務。

bedi等人提出ibsp演算法,利用社會交往因子克服冷啟動問題。

於洪等人利用使用者註冊資訊及專案詳情資訊分別進行建模,提供推薦服務。

le等人提出nhsm相似度度量方法來解決使用者冷啟動問題。

資料稀疏性

由於海量的使用者與專案資訊被儲存,使用者與專案的潛在因子矩陣大多數時候是高維稀疏的。這導致任意兩個向量之間近似正交,得到的相似度往往為零,傳統的基於相似度計算的模型往往得不到理想的結果。因此評價資料集的稀疏度是十分必要的,實際應用中往往採用使用者專案評分矩陣中未評分資料量佔評分總量的比例作為稀疏度的衡量指標,稀疏度越大,傳統演算法的精度越低,也就越難處理。

可擴充套件性

大資料環境下由於使用者量和資料量龐大,傳統的矩陣分解演算法相應緩慢,儲存成本很高,這限制了傳統的矩陣分解演算法在實際中的應用。

所以需要降低改進演算法的複雜度,同時通過分布式檔案系統(hdfs)儲存資料。考慮到計算效率,可以將矩陣分解演算法進行並行化操作,以此來提高演算法對海量資料的處理能力。

使用者興趣漂移

使用者的興趣愛好不是一成不變的,這會影響推薦的實時性。引起使用者興趣漂移的原因可能有:年齡的增長;生活狀態的改變;收到新聞事件與專案流行度的影響;收到節日的影響;受他人影響等。

演算法改進的最終目標是向使用者準確推薦專案,所推薦的結果都能使得使用者滿意。

推薦系統學習筆記

完整的資訊流推薦系統 到業務前台的推薦系統的召回 粗排以及精排等推薦環節,召回層面,目前已實現大規模fm統一召回模型,正逐步替代傳統的多路召回模型,並在各項指標取得了非常明顯的業務效果。召回階段,採用模型統一召回代替傳統的多路召回是個比較明顯的趨勢。四個環節分別是 召回 粗排 精排和重排。模型召回 ...

推薦系統學習(二)

擴充套件閱讀 這篇 是07年的,是傳統的方法中比較經典的 了.他論述了現在推薦的問題,評分矩陣的稀疏性,以及資料量的逐漸增加,最好的總結請看pmf,這位博主總結的比較全面,該博文從問題定義,以及問題解決思路都進行了很好地說明。了解 中公式的解釋請參考原理,中詳細的推導過程可以參考pmf推導。這些總結...

推薦系統學習筆記之評測指標

調查問卷 問卷要盡可能詳細分出等級,不要只有滿意或者不滿意。2.的準確度 離線測驗 準確度是最重要的系統離線測試指標,將離線資料集劃分為訓練集和測試集,通過在訓練集上建立使用者的行為和興趣模型 使用者在測試集上的行為,並計算 行為和測試集上實際行為的重合度作為 準確度。2.1 評分 使用者對物品評分...