漫談「推薦系統」

2021-06-22 00:31:30 字數 1921 閱讀 4945

(rating/preference matrix),其每一行對應乙個使用者,每一列對應一件物品,矩陣中的任一元素就是某使用者對某物品的感興趣程度(評分可以用正整數表示,點讚神馬的可以用0/1表示),不失一般性,下面我們僅基於評分矩陣討論。這個評分矩陣是極其稀疏的,因為每個使用者只可能對很少一部分物品打分。第二個矩陣是使用者資訊矩陣,每一行對應乙個使用者,每一列對應乙個使用者屬性(如年齡、職業、地區、標籤等)。第三個矩陣是物品資訊矩陣,每一行對應一件物品,每一列對應乙個物品屬性(如電影的流派、導演、演員等)。推薦問題的目標就是:基於給定的三個矩陣,把評分矩陣中缺失元素的評分**出來,並基於**出來的評分把得分高的物品推薦給相應使用者。這裡值得注意的是,只有評分矩陣是所有推薦技術所必需的,使用者資訊矩陣與物品資訊矩陣這兩者是可選的。真實推薦系統面臨最大的挑戰是評分矩陣的大規模與稀疏性。2)協同過濾問題的本質是矩陣補全問題(matrix completion),也就是把乙個稀疏矩陣的缺失元素給估計出來,這是機器學習中乙個經典問題,除了推薦之外還有無數的應用都可歸結為矩陣補全問題,所以機器學習的高速發展也促進了協同過濾技術。3)2023年netflix發起的那個百萬美元大獎功不可沒,直接上演了持續多年相關研究領域全民做推薦的激情歲月,雖然吧這個競賽使用了乙個完全誤導的評價指標來判斷推薦演算法的優劣(使用的是rmse指標,這是乙個評價回歸的指標,而推薦問題事實上是乙個排序問題)。跑題了,接著分類。協同過濾技術可以繼續分為基於記憶的(memory-based)和基於模型的(model-based)。基於記憶的繼續可分為基於使用者的(user-based)和基於物品的(item-based);而基於模型的可以繼續分為基於矩陣分解的(matrix factorization)和基於聯合聚類的(co-clustering)。基於記憶的協同過濾技術使用的是k-近鄰(k-nearest neighbors)的思想,而基於模型的協同過濾技術使用的是機器學習方法。分類結束。

真實系統都是使用的混合策略(hybrid strategy),多為基於人口、基於元資料、以及基於使用者或物品的協同過濾推薦技術的各種組合。基於模型的協同過濾雖然使用了高階大氣上檔次的機器學習方法,但做過真實應用的同學都懂的,簡單粗暴才是王道,提出並改進乙個模型連發三篇頂級機器學習會議**提高了乙個百分點,往往不如真實系統中屌絲程式設計師在哪疙瘩加個莫名的閾值來得有效。那為什麼頂尖網際網路企業都在搞機器學習呢?這麼說吧,五百的衣服和五萬的衣服功能都是一樣的,但是地位高到一定程度,除了衣服的基本功能外我們還會追求一些其它的東西。但是如果只是想基於推薦技術做乙個網路服務神馬的,就沒必要搞那麼玄的機器學習花樣了,反而大規模計算的效率問題和推薦應用本身是否有市場前景是更應該考慮的,有了這些,最基本的基於人口統計與基於記憶的推薦技術就能搞定大多數應用。貌似跑題了,接著說混合策略。有些混合策略是對不同推薦技術的結果加權相加(weighting);有些是根據場景不同在不同技術間跳轉(switching),比如新使用者基於人口統計老使用者基於協同過濾;有些是乙個網頁上不同區域同時顯示不同推薦技術的結果(mixing);有些是用乙個推薦技術對另乙個推薦技術輸出的結果進行提公升(cascading)。

除了基於模型的協同過濾技術外,其它的推薦技術在原理上都相對簡單,使用一些相關查詢和啟發式演算法就能解決。這段就把除基於模型的協同過濾以外的推薦技術都簡單介紹下。首先是基於人口統計學的,該類推薦技術需要基於使用者資訊矩陣和評分矩陣。原理很簡單,就是查詢使用者資訊矩陣中背景類似的使用者,然後把對應評分矩陣中打高分的物品推薦給背景類似的使用者。舉個例子,使用者資訊上顯示兩個人年齡相仿居於灣區網際網路從業者,於是系統就會認為這兩人相關性強會有共同愛好,把其中一人打高分的電影推薦給另乙個。這種推薦技術的優點是簡單,一些相關性查詢操作就能搞定,而且沒有「冷啟動(cold-start)」問題(即使用者缺失歷史評分紀錄);缺點是無法個性化推薦,基於人口統計相似度的假設太強

個性化推薦漫談

如果說過去的十年是搜尋技術大行其道的十年,那麼個性化推薦技術將成為未來十年中最重要的革新之一。目前幾乎所有大型的電子商務系統,如amazon cdnow netflix等,都不同程度地使用了各種形式的推薦系統。而近來以 發現 為核心的 正開始在網際網路上嶄露頭角,比如側重於 推薦的八 寶盒,側重於圖...

個性化推薦漫談

如果說過去的十年是搜尋技術大行其道的十年,那麼個性化推薦技術將成為未來十年中最重要的革新之一。目前幾乎所有大型的電子商務系統,如amazon cdnow netflix等,都不同程度地使用了各種形式的推薦系統。而近來以 發現 為核心的 正開始在網際網路上嶄露頭角,比如側重於 推薦的八 寶盒,側重於圖...

推薦系統架構 推薦系統(1) 業界推薦系統架構

1.1業界主流推薦系統架構 業界推薦系統通用架構 1.2使用者本身資料 1.3物品本身資料 1.4使用者行為資料 2.1基於離線訓練的推薦系統架構設計 常用演算法 邏輯回歸 logistics regression 梯度提公升決策樹 gbdt 和因式分解 fm 架構設計 2.2面向深度學習的推薦系統...